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概率 推理 是 不 确定 性 条 件 下 做 出 决策 的 重要 方法 , 在 许多 领域 都 已 经 得 到 了 广泛 的 
六 用 。 概 率 编程 充分 结合 了 概率 推理 模型 和 现代 计算 机 编程 语言 ， 使 这 一 方法 的 实施 更 
加 简便 ， 现 已 在 许多 领域 (包括 炙手可热 的 机 器 学 习 ) 中 新 露头 角 ， 各 种 概率 编程 系统 
也 如 雨 后 春 算 般 出 现 。 本 书 的 作者 Avi Pfeffer 正 是 主流 概率 编程 系统 Figaro 的 首席 开发 
者 ,他 以 详尽 的 实例 、 清 晰 易 懂 的 解说 引领 读者 进入 这 一 过 去 令 人 望 而 生 长 的 领域 。 通 
读本 书 ， 可 以 发 现 概 率 编程 并 非 “ 疯 狂 科 学 家 ” 们 的 专利 ， 无 需 艰深 的 数学 知识 ， 就 可 
以 构思 出 解决 许多 实际 问题 的 概率 模型 ， 进 而 利用 现代 概率 编程 系统 的 强大 功能 解 题 。 
本 书 既 可 以 作为 概率 编程 的 入 门 读物 , 也 可 以 帮助 已 经 有 一 定 基 础 的 读者 熟悉 Figaro 这 
一 概率 编程 利器 。 
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情况 并 没有 很 大 的 改变 


























多 年 ， 
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斯 写 道 ,“ 在 很 大 程度 上 ， 人 9 
答 这 些 问 题 〈 这 一 格言 依然 正 


最 重要 的 问题 就 
角 ) 的 唯一 方法 是 用 笔 
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导 到 结果 的 公式 ， 手 工 填 入 数字 以 求 4 








公式 值 。 计 算 机 的 出 现 对 这 
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E 够 为 包含 更 多 数字 的 更 














得 更 力 


数值 化 概率 。 过 去 ， 概 率 模 型 用 
得 出 计算 答案 的 公式 或 者 算法 。 
住 点 ， 使 概率 理论 的 适 


型 中 ， 
容易 
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经 过 进一步 数学 处 至 


心 勃 纪 ， 











往往 








j 纸 数 百 页 。 
概率 问题 的 分 析 需 要 构思 概率 模型 ， 这 种 模型 以 某 利 


























习 然 语言 文本 和 
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b 错 ， 而 且 存 寿 
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尽管 拉 普 拉 斯 在 多 年 前 就 
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本 
斯 网 络 和 
表达 式 含义 的 精确 
式 描述 概率 模型 ， 开 发 一 个 算法 计算 人 





上 
[马尔 


人 小 
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看 的 叙 ; 


述 问题 的 第 一 个 习 





科 夫 网 络 。 形 式 语言 


语义 《 




















述 : 








?》 





科 夫 网 络 等 
拟 。 为 了 对 这 一 
单 软件 。 在 Java 等 高 级 编程 语言 ' 
接 起 来 完成 相同 的 功能 。 
都 无 法 想象 ， 





辑 门 电路 连 
复杂 度 和 清 


概率 到 
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于 具体 问题 的 


己 提 出 ， 





























日 是 这 个 生活 中 最 
要 进步 是 定义 概率 模型 所 月 
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即 每 个 示 哪 种 概率 模型 





es 
复杂 公 


正式 的 数学 标记 法 


要 的 问题 1 
的 形式 语言 的 发 展 ， 
具有 定义 正确 表达 式 的 精确 语法 ， 以 及 定义 每 和 


E 何 可 表达 概率 模型 结果 都 成 为 可 能 。 





式 求 值 ， 纸 笔 分 析 也 变 





方式 规划 概率 空间 ， 为 其 指定 





的 组 合 写 下 。 从 模 





这 些 阶 段 都 十 分 费时 费力 、 
] 性 受到 了 严重 的 限制 。 
j 然 没有 管 案 。 

列 如 贝 叶 
正确 
LE 解 的 形 















































)。 因 此 ， 用 机 器 可 型 
































中 不 足 的 是 : 可 表达 概率 模型 的 4 
能 力 相 当 有 限 。 从 茶 种 意义 上 说 ， 

















局 限 性 的 含义 有 所 了 解 ， 我 们 考虑 一 个 问题 : 纺 


决 乏 。 实 际 上 ， 贝 叶 斯 和 马尔 
它们 只 是 布尔 电路 的 概率 模 
写 大 型 公司 所 用 的 工资 
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为 电路 缺乏 

















大 | 












































篇 关于 概率 编程 


及 数 万 行 代码 。 现在， 想象 一 下 将 许多 好 
EF 的 任务 似乎 完全 无 法 完成 。 这 术 
有 捉 问 题 结构 的 表达 能 
1997 年 ， 本 书 作 者 Avi Pfeffer (当时 还 是 个 学 生 ) 和 他 世 
协作 者 David McAllester 发 表 ] 





的 电路 规模 、 





已 
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师 Daphne Koller 以 及 

















语言 (PPL) 的 原创 论文 ， 提 供 了 将 

















LE 论 与 高 级 编程 语言 联系 起 来 的 关键 思路 。 这 一 思路 是 通 





过 引入 随机 元 素 使 程序 成 





序 

















为 概率 模型 ， 并 将 程序 的 意义 定义 为 每 个 可 能 执行 路 径 的 概率 。 这 一 思路 以 高 效 的 方式 
结合 了 数学 的 两 个 最 重要 分 支 ， 我 们 接 下 来 将 要 开始 探索 由 此 产生 的 新 可 能 性 。 

本 书 使 用 Figaro 语言 阐述 这 些 概 念 及 其 应 用 ,逐步 引领 读者 理解 上 述 思路 。 书 中 加 
开 了 不 必要 的 数学 知识 ， 集 中 于 详细 构思 、 认 真 解释 的 实例 ， 适 合 于 拥有 典型 编程 背景 
的 读者 。 通 读本 书 还 有 一 个 副产品 : 读者 能 够 比 以 往 更 轻松 地 熟练 掌握 贝 叶 斯 推理 和 统 
计 学 的 原理 及 技术 。 最 重要 的 是 ， 读 者 将 学 习 建 模 技 能 ， 这 是 任何 科学 家 或 者 工程 师 的 
最 关键 技能 之 一 。Figaro 和 其 他 PPL 使 人 们 可 以 直接 、 快 速 、 精 确 地 表现 这 种 技能 。 

本 书 是 将 概率 编程 从 开发 它 的 实验 室 中 转移 到 真实 世界 的 重要 步骤 。 从 某 种 程度 上 
说 ，PPL 系统 的 能 力 无 疑 还 难以 应 对 这 种 挑战 ， 那 些 研究 实验 室 也 将 停止 工作 。 另 一 方 


面 ， 本 书 的 读者 一 定 能 找 出 应 用 Figaro 的 创新 方法 ， 它 与 各 种 新 间 题 的 相关 性 也 绝 非 作 
者 所 能 想象 的 。 
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Stuart Russell 


加 州 大 学 伯克利 分 校 计算 机 科学 教授 


概率 编程 是 一 个 激动 人 心 的 新 领域 ， 正 在 快 


-PPe 
用 避 


速 地 引起 人 们 的 兴趣 ， 从 学 术 领 域 进入 





程序 员 的 世界 中 。 本 质 上 ， 概 率 编程 是 创建 概率 
观测 预测 或 者 推理 未 知 的 事物 。 概 率 推理 很 久 以 












































器 学 习 中 ， 使 用 了 概率 模型 来 描述 从 经 验 中 得 到 的 知识 。 在 和 
、 固 定 结构 的 模型 。 而 概率 




















统 局 限于 包含 贝 叶 斯 网 络 等 简 




















推理 模 





























型 的 新 方法 ， 这 种 模型 用 来 根据 








来 都 是 机 器 学 习 的 核心 方法 之 一 ， 在 机 









































既 率 编程 之 前 ， 概 率 推 理 系 

















有 程 提供 了 编程 语言 的 全 部 


能 力 以 表现 模型 ， 使 概率 推理 系统 摆脱 了 这 些 标 桂 。 这 正如 从 电路 转向 高 级 编程 语言 。 








我 从 青少年 时 代用 BASIC 语言 开发 一 个 足球 模拟 程序 时 高 
































致力 于 概率 编程 ， 只 是 


当时 还 没 认 识 到 。 这 个 模拟 程序 使 用 “GOTO 1730 + RANDOM * 5” 这 样 的 指令 表示 随 























机 的 事件 顺序 。 经 过 精心 的 调 校 ， 模 拟 程序 已 经 很 和 逼真， 足以 让 我 娱乐 数 个 小 时 。 当 然 ， 









































1997 年 ， 我 和 Daphne Koller、David McAllester 合作 编撰 了 第 
论文 。 这 篇 论文 引入 了 一 种 类 似 Lisp 的 概率 语言 , 但 是 主要 的 创新 是 根据 关于 输出 的 证 








在 随后 的 岁月 中 ， 概 率 编程 已 经 逐渐 成 熟 ， 不 再 只 是 包含 随机 目标 的 GOTO 语句 了 。 























篇 关于 概率 编程 的 













































































模拟 语言 。 




































































很 强 的 表达 能 力 并 包含 新 型 推理 算法 ， 但 是 几 年 











要 是 难以 与 数据 交互 、 与 应 用 程序 集成 。 这 些 局 限 | 








21 世纪 初 ， 我 开发 了 第 一 种 基于 函数 式 编 程 的 通用 























之 后 ， 








Tr 


率 编程 系统 ， 我 将 其 定名 为 Figaro。Figaro 以 实用 性 作 


率 编程 能 力 。 这 导致 了 将 Figaro 作为 Scala 程序 库 的 设计 





Ne 








型 更 容易 与 Java 虚拟 机 应 用 集成 。 同 时 ，Figaro 
























































\ 备 ] 








生 促 





























据 ， 推 理 程序 可 能 特征 的 一 种 算法 。 这 一 创新 不 仅 提供 了 运行 程序 以 获得 可 能 执行 方式 
的 手段 ， 还 反 向 论证 和 推理 了 产生 观测 结果 的 原因 ， 从 而 使 概率 语言 超越 了 典型 的 概率 


概率 编程 系统 IJBAL。IBAL 有 
我 逐渐 对 其 局 限 性 感到 不 满 ， 主 
使 我 在 2009 年 开始 开发 新 的 概 














为 首要 目标 ， 同 时 并 没有 牺牲 概 









































策 ， 该 决策 使 得 概率 编程 模 
有 程 系 统 中 最 广泛 


























的 表现 特征 和 推理 算法 。Figaro 现在 是 一 个 开源 GitHub 项 目 ， 最 新 版 本 号 为 3.3。 








概率 编程 可 能 是 一 种 难以 掌握 的 技术 ， 因 为 











站 > RC: 
已 前 安 











我 所 知 的 概率 纪 
多 种 技能 ， 其 ! 














主要 的 是 编写 概 


中 

















率 模型 和 编写 程序 的 能 力 。 对 于 许多 程序 员 来 说 ,编写 程序 很 自然 , 但 是 概率 建 模 有 些 
神秘 。 本 书 的 目的 是 揭 开 概率 建 模 的 神秘 面纱 , 告诉 您 如 何在 创建 概率 模型 时 高 效 编程 ， 
帮助 您 有 效 地 使 用 概率 编程 系统 。 本 书 假定 读者 在 机 器 学 习 或 者 概率 推理 上 没有 任何 背 
景 。 函 数 式 编程 和 Scala 的 经 验 有 所 帮助 ， 但 是 要 使 用 本 书 并 不 一 定 要 成 为 Scala 的 奇 
才 ，Scala 专业 知识 也 可 能 因为 阅读 本 书 而 增长 。 
阅读 本 书 之 后 ， 您 应 该 可 以 在 没有 机 器 学 习 博 十 学 位 的 情况 下 ， 为 许多 应 用 程序 设 
















































































































































































计 概 率 模型 ， 从 数据 中 获得 有 意义 的 信息 。 如 果 您 是 某 个 领域 的 专家 ， 本 书 能 够 帮助 您 
表达 脑海 中 或 者 纸 面 上 的 模型 ， 使 它们 可 以 运算 ， 实 现 对 不 同 概率 的 计算 和 分 析 。 如 果 
您 是 一 位 数据 科学 家 , 本 书 可 以 帮助 您 开发 比 其 他 工具 更 丰富 、 更 详细 和 更 精确 的 模型 。 
如 果 您 是 软件 工程 师 或 者 架构 师 ， 正 寻求 在 系统 中 加 入 不 确定 情形 下 的 推理 能 力 ， 本 书 
不 仅 能 够 帮助 您 构建 处 理 不 确定 性 的 模型 ， 还 能 将 这 些 模 型 集成 到 应 用 程序 中 。 不 管 基 
为 何 种 原因 选择 本 书 ， 我 都 希望 您 能 够 喜欢 它 ， 并 从 中 得 益 。 
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关于 本 书 












































不 管 商 业 、 科 学 、 军 事 上 还 是 日 常生 活 中 ,许多 决策 都 涉及 不 确定 情况 下 的 判断 。 当 
不 同 的 因素 将 您 引 问 不 同方 向 , 如 何 知 道 最 应 该 注意 的 是 哪个 方面 ? 概率 模型 可 以 表达 关 
于 您 所 处 情况 的 所 有 相关 信息 。 概 率 推 理 使 用 这 些 模型 确定 对 决策 影响 最 大 的 变量 的 概 
率 。 您 可 以 使 用 概率 推理 预测 最 可 能 发 生 的 情况 : 您 的 产品 能 否 在 目标 价格 上 取得 成 功 ; 
患者 对 特定 疗法 的 反应 是 否 良好 ; 您 的 候选 人 如 果 采 用 某 种 立场 ,能 否 赢得 选举 ? 您 还 可 
以 使 用 概率 推理 推导 出 所 发 生 情况 的 可 能 原因 : 如 果 产 品 失 败 ， 是 不 是 因为 价格 太 高 ? 

概率 推理 也 是 机 器 学 习 的 主要 方法 之 一 。 您 在 概率 模型 中 编码 关于 所 在 领域 的 初始 
信念 ， 如 用 户 对 市 场 产 品 的 一 般 反 应 。 然 后 ， 提 供 训 练 数 据 ( 可 能 与 特定 产品 的 用 户 反 
应 有 关 )， 更 新 信念 以 获得 新 模型 。 现 在 ， 可 以 使 用 新 模型 预测 未 来 的 结果 ， 如 规划 '! 
的 产品 是 否 成 功 ， 或 者 推导 出 观测 结果 的 可 能 原因 ， 如 新 产品 失败 的 原因 。 

过 去 ， 概 率 推理 使 用 专用 语言 表示 概率 模型 。 近 年 来 ,我们 意识 到 可 以 使 用 常规 的 
编程 语言 ， 这 造就 了 概率 编程 。 概 率 编程 有 三 大 好 人 处。 首先 ， 在 构建 模型 时 ， 可 以 从 编 
程 语言 的 所 有 特征 中 获 益 ， 如 丰富 的 数据 结构 和 控制 流 。 其 次 ， 概 率 模型 很 容易 与 其 他 
应 用 程序 集成 。 第 三 ， 可 以 从 用 于 论证 模型 的 通用 推理 算法 中 获 益 。 

本 书 的 目标 是 提供 在 日 常 活动 中 使 用 概率 编程 的 知识 。 特 别 是 : 

三 如何 构 建 概 率 模型 并 以 概率 程序 表达 。 

看 ”概率 推理 的 工作 原理 以 及 如 何以 各 种 推理 算法 实现 。 

加 ”如 何 使 用 Figaro 概率 编程 系统 构建 实用 的 概率 程序 。 

Figaro 以 Scala 程序 库 的 形式 实现 。 和 Scala 一 样 ，Figaro 结合 了 函数 式 和 面向 对 象 
编程 风格 。 这 对 于 不 了 解 函数 编程 的 人 来 说 很 有 用 。 本 书 不 使 用 高 级 函数 式 编程 概念 ， 
所 以 您 应 该 能 在 对 此 了 解 有 限 的 情况 下 理解 。 同 样 ， 对 Scala 有 所 了 解 是 有 益 的 。 尽 管 本 
书 中 常常 会 解释 Scala 的 结构 ， 但 不 是 Scala 的 简介 。 同 样 ， 本 书 通 常 不 使 用 Scala 较为 难 
懂 的 功能 ， 所 以 略 有 涉猎 就 应 该 足够 了 。 













































































































































































































































































































































































































































































































































































































































































































































































2 关于 本 书 









































部 分 简介 概率 编程 和 Figaro。 和 第 1 章 首先 解释 概率 编程 的 定义 及 其 实用 
绍 Figaro。 第 2 章 是 Figaro 的 使 用 教程 ， 帮 助 您 很 快 地 了 解 概率 程序 的 
编写 。 第 3 章 提供 了 一 个 完整 的 概率 编程 应 用 一 一 一 个 垃圾 邮件 过 滤器 ， 包 括 论证 给 定 
电子 邮件 是 常规 邮件 还 是 垃圾 邮件 的 组 件 ， 以 及 从 训练 数据 学 习 概 率 模 型 的 组 件 。 第 3 
前 的 目标 是 在 详细 介绍 建 模 技术 之 前 ， 提 供 各 种 技术 相互 融合 的 全 貌 。 
第 2 部 分 介绍 概率 程序 的 构建 。 第 4 章 包 含有 关 概 率 模型 和 概率 程序 的 基本 材料 ， 
这 对 理解 它们 ， 真正 了 解 创建 概率 程序 时 需要 做 什么 很 重要 。 第 5 章 提 供 了 两 种 作为 概 
率 编程 核心 的 建 模 框 架 一 一 贝 叶 斯 网 络 和 马尔 科 夫 网 络 。 第 6 一 8 章 描 述 了 一 组 用 于 构 
建 更 高 级 程序 的 实用 编程 技术 。 第 6 章 讨论 使 用 Scala 和 Figaro 集合 组 织 涉 及 许多 同类 
变量 的 程序 的 方法 。 第 7 章 讨 论 面 向 对 象 编程 ， 这 种 方法 对 于 概率 编程 和 常规 程序 同样 
有 益 。 第 8 章 介绍 建 模 动 态 系统 。 动 态 系统 是 状态 随时 间 推 移 而 变化 的 系统 ， 是 这 一 章 
深入 介绍 的 概率 推理 极其 常见 和 重要 的 应 用 。 
第 3 部 分 向 您 传授 关于 概率 推理 算法 的 知识 。 理 解 推理 对 于 有 效 使 用 概率 编程 很 重 
要 ， 这 样 您 就 可 以 使 用 适合 于 任务 的 算法 ， 对 合适 的 方式 配置 ， 以 支持 有 效 推理 的 方式 
表达 模型 。 第 3 部 分 在 传授 算法 理论 和 使 用 这 些 算 法 的 实践 技巧 之 间 达 成 了 平衡 。 第 9 
章 是 基础 ， 介 绍 了 捕捉 概率 推理 中 使 用 的 主要 思路 的 3 条 原则 。 第 10 章 和 第 11 章 描 述 
了 两 个 主要 的 推理 算法 家 族 。 第 10 章 描述 因子 分 解 算法 ， 包 括 对 因子 及 其 工作 原理 的 
介绍 ， 以 及 变量 消除 和 置信 传播 算法 。 第 11 章 介绍 抽样 算法 ， 特 别 关 注重 要 性 抽样 和 
马尔 科 夫 链 蒙特 卡 洛 算法 。 第 10 章 和 第 11 章 专 注 于 计算 感 兴趣 的 变量 概率 的 基本 查询 ， 
而 第 12 章 介绍 如 何 使 用 因子 分 解 和 抽样 算法 计算 其 他 查询 ， 如 多 变量 联合 概率 、 变 量 
最 大 可 能 值 和 观测 证 据 的 概率 。 最 后 ， 第 13 章 讨论 两 个 高 级 而 重要 的 推理 任务 : 监视 
随时 变化 的 动态 系统 ， 从 数据 中 学 习 概 率 模 型 的 数值 参数 。 
每 章 都 有 一 组 练习 ， 涵 盖 了 从 简单 计算 、 编 程 任务 到 开放 思维 练习 的 范围 。 
本 书 还 包括 两 个 附录 。 附 录 A 是 Figaro 的 安装 指南 。 附 录 B 是 其 他 概率 编程 系统 
的 概况 。 





































































































































































































































































































































































































































































































































































































































































































































































































关于 代码 和 练习 


本 书 的 代码 以 等 宽 字 体 显示 ， 以 便 和 正文 分 开 。 许 多 代码 清单 中 含有 代码 注释 ， 强 
调 了 重要 的 概念 。 在 某 些 情况 下 ， 清 单 之 后 有 链接 到 解释 的 编号 项 目 。 

本 书包 含 许多 代码 示例 ， 其 中 大 部 分 可 以 从 本 书 网 站 www.manning.com/books/ 
practical-probabilistic-programming 的 在 线 代码 库 中 找到 。 该 网 站 还 包含 部 分 练习 答案 。 















































































































































关于 作者 


Avi Pfeffer 是 概率 编程 的 先驱 ， 从 一 开始 就 活跃 于 这 个 领域 。Avi 是 Figaro 的 首席 
设计 者 和 开发 者 。 在 Charles River Analytics，Avi 参与 了 Figaro 在 多 个 问题 上 的 应 用 ， 
包括 恶意 软件 分 析 、 汽 车 健康 监控 、 气 象 模型 建立 和 工程 系统 评估 。 

在 闲暇 时 ，Avi 是 一 位 歌手 、 人 作曲 家 和 音乐 制作 人 。 他 和 妻子 及 三 个 孩子 在 马 萨 诸 
赛 州 坎 布 里 奇 生活 。 











































































































作者 在 线 


购买 本 书 就 可 以 免费 访问 Manning Publications 运营 的 一 个 私有 网 络 论坛 ,在 那里 可 
以 评论 本 书 ， 提 出 技术 问题 ， 讨 论 书 中 的 练习 ， 从 作者 和 社区 那里 得 到 帮助 。 在 
www.manning.com/books/practical-probabilistic-programming 可 以 访问 和 订阅 该 论坛 。 这 
个 页 面 提供 了 关于 注册 后 如 何 访问 论坛 、 论 坛 提供 的 帮助 类 型 以 及 行为 准则 的 信息 。 

Manning 对 读者 的 承诺 是 ， 提 供 读 者 之 间 和 读者 与 作者 之 间 有 意义 对 话 的 途径 。 我 
们 不 能 承诺 作者 的 参与 度 ， 他 们 对 论坛 的 贡献 完全 是 自愿 〈 无 偿 ) 的 。 我 们 建议 读者 向 
作者 提出 挑战 性 的 问题 ， 以 免 他 们 失去 兴趣 ! 

只 要 本 书 仍 在 销售 中 , 作者 在 线 论坛 和 过 去 讨论 的 存档 都 可 以 在 Manning 网 站 上 访问 。 













































































































































































关于 封面 





本 书 封面 上 的 插图 题 为 “ 威 














Saveur 于 1796 


旅游 指南 很 受 欢迎 ， 它 向 旅游 者 和 
《旅游 百科 全 书 》 中 
个 性 。 当 时 ,在 两 个 8 
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8 版 的 《旅游 百科 全 
I 空谈 旅游 家 介绍 了 法 国 和 海外 其 他 地 
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这 本 旅游 指南 展示 了 
当时 的 着 装 规范 已 经 变化 ， 各 个 地 
度 看 ， 
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我 们 月 
或 者 更 丰富 、 有 趣 的 知识 和 技术 生活 。 











取 自 一 本 法 匡 
记 》。 当 时， 旅游 消 遗 还 是 相当 新 颖 的 现象 ， 这样 的 
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区 的 风土 人 情 。 
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也 区 ， 人 们 的 穿着 就 足以 独特 ] 
民 《 除 了 快 节奏 的 现在 ) 的 孤立 感 和 距离 感 。 
区 的 多 样 化 也 逐渐 消失 。 现 在 ， 答 
昌文 化 和 视觉 上 的 多 样 性 换 来 了 更 多 彩 的 个 人 生 














Manning 通过 复活 这 本 旅游 指南 中 的 插图 ， 用 两 
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的 创造 性 和 乐趣 。 
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第 1 部 分 
概率 编程 和 Figaro 简介 












































a 它 有 什么 用 处 ?如 何 使 用 它 ? 这 些 问题 是 第 1 部 分 的 主题 。 
第 1 章 介 绍 概率 编程 的 基本 思路 。 首 先 介 绍 概 率 推理 系统 的 概念 ， 说 明 概率 
编程 如 何 将 传统 的 概率 推理 系统 概念 和 编程 语言 技术 相 结 合 。 

在 本 书 中 ， 您 将 使 用 Figaro 概率 编程 系统 。 第 1 章 简 要 介绍 Figaro， 第 2 章 提供 所 
有 Figaro 主要 概念 的 简单 教程 , 帮助 您 快速 开始 编写 概率 程序 。 第 3 章 介 绍 一 个 完整 的 
概率 编程 应 用 程序 ， 为 您 提供 实际 应 用 程序 组 合 的 全 貌 。 虽 然 这 一 章 接 近 全 书 的 开头 ， 
因此 您 从 一 开始 就 一 宇 全 局 , 但 是 在 阅读 本 书 的 更 多 章节 , 已 经 学 习 到 更 深入 的 概念 时 ， 
仍 值得 不 时 复习 。 
































































































































































































































第 1 和 章 概率 编程 简介 





章 介绍 如 下 内 容 : 


什么 是 概率 编程 ? 

为 什么 应 该 关心 概率 编程 ? 为 什么 我 的 老板 应 该 
关心 概率 编程 ? 

概率 编程 的 工作 原理 是 什么 ? 

Figaro 一 一 概率 编程 所 用 的 系统 

使 用 和 不 使 用 概率 编程 的 情况 下 ， 概 率 应 用 程序 编 
写 的 对 比 












































在 本 章 中 ， 您 将 学 习 如 何 使 用 概率 推理 系统 的 两 个 主要 组 成 部 分 〈 概 率 模型 和 扒 

































































算法 ) 做 出 日 常 决策 ， 还 将 了 解 现代 概率 编程 语言 是 如 何 比 Java 或 Python 等 通用 语言 






































更 轻松 地 创建 这 种 推理 系统 的 。 本 章 还 将 介绍 Figaro， 这 是 本 书 自始至终 使 用 的 基于 
Scala 的 概率 编程 语言 。 
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决策 。 





助 在 不 确 











定性 下 做 


什么 是 概率 编程 


概率 编程 是 一 种 系统 创建 方法 ， 它 所 人 
许多 日 常 决 策 涉 及 在 确定 无 法 直接 观测 的 相 
决策 的 方法 
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的 范 国 


书 | 
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[概率 法 则 结合 起 来 ， 确 定 无 法 观测 的 决策 关键 
仍然 有 限 ， 难 以 应 用 
系统 更 容易 构建 ， 适 | 

















多 现实 ! 





青 况 ! 
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E 解 概率 编程 ， 














您 将 了 解 概 率 推 天 

















推理 
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1.1.1 








良 ， 市 场 调查 
的 产品 可 能 有 市 场 不 能 容 
定 ， 就 无 法 做 出 是 否 投放 该 产品 的 决策 〈 见 


， 也 就 能 理解 概率 











何 帮 


助 您 








是 如 


首先 要 观察 不 确 











做 出 决策 的 。 您 将 六 








br 














剖 程 








我 们 如 何 做 出 主观 判断 


在 现实 世界 中 ， 我 们 所 关心 的 问题 很 少 有 非 此 即 彼 的 答案 。 例 如 
一 个 新 产品 ， 想 要 知道 它 的 销路 如 何 。 您 可 能 认为 它 将 取得 成 功 ， 
表明 有 需求 ， 但 是 无 法 确定 。 您 的 竞争 者 可 能 推 
许 的 致命 缺陷 ， 经 济 也 可 能 突然 衰退 。 妇 
































































































































EE， 以 及 通过 编程 
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定性 条 件 下 的 
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系 。 








的 能 力 月 


。 概 率 编程 是 一 利 
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Ti 





| 建 的 系统 能 够 帮助 我 们 在 
素 时 的 判断 能 力 。 历 史上 ， 帮 
统 。 概 率 推理 将 我 们 对 某 利 
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在 对 不 确定 性 时 做 























情况 























直到 最 近 ， 概 率 推 
新 方法 ， 它 使 概率 和 





策 过 程 和 涉及 的 主观 判断 。 然 后 
FE 意 到 概率 推理 系统 所 能 进行 的 3 利 
































图 1-1)。 























有 程 构建 概率 推 班 
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系统 的 




















， 如 果 您 打算 启动 
为 您 相信 它 设计 精 











更 好 的 产品 ， 或 者 您 
I 果 要 求 百分之百 的 确 























































































































概率 语言 有 助 于 做 出 此 类 决策 。 在 投放 某 个 产品 时 ， 可 以 使 用 类 似 产品 的 先期 经 验 
估算 产品 的 成 功 概率 。 然 后 ， 用 这 一 概率 帮助 决定 是 否 继续 推进 并 投放 该 产品 。 您 可 能 
不 仅 关 心 产 品 能 否 成 功 ， 还 关心 它 能 带 来 多 少 收 入 ,或 者 失败 将 导致 多 大 的 损失 。 您 
以 使 用 不 同 结果 的 概率 做 出 更 明智 的 决策 。 

概率 论 思想 可 以 帮助 您 做 出 艰难 的 决策 和 判断 ， 但是， 您 该 怎么 做 呢 ? 一 般 原则 在 
下 面 列 出 。 

事实 : 主观 判断 基于 知识 + 逻辑 。 

您 对 感 兴趣 的 问题 有 某 些 知识 。 例 如 ， 您 对 产品 有 深入 的 了 解 ， 可 能 进行 了 一 些 市 
场 调查 以 找 出 客户 的 需求 。 您 还 可 能 有 关于 竞争 对 手 的 情报 和 经 济 预测 。 同 时 ， 逻 辑 帮 
助 您 运用 知识 获得 问题 的 答案 。 




















1.1 什么 是 概率 编程 





您 需要 一 种 规格 化 知识 的 方法 ， 还 需要 运用 知识 得 









































图 1-1 去 年 所 有 人 都 喜爱 我 的 产品 ， 但 是 明年 会 怎么 样 呢 ? 





问题 答案 的 逻辑 











。 概 率 编程 提 





供 了 规格 化 知识 和 回答 问题 的 逻辑 。 在 我 描述 概率 编程 系统 概念 之 前 ， 我 将 描述 概率 推 
理 系统 的 一 般 概念 ， 这 种 系统 提供 了 规格 化 知识 和 提供 逻辑 的 基本 手段 。 

















1.1.2 ”概率 推理 系统 帮助 决策 


概率 推理 是 使 用 您 的 领域 模型 做 出 不 确定 条 件 下 决策 的 一 种 方法 。 举 个 足球 界 的 
假定 统计 显示 9% 的 角球 造成 进 球 。 您 的 任务 是 预测 茶 次 角球 的 结果 。 攻 方 的 中 


例子 。 


锋 身高 6 英尺 4 英寸 ( 约 1.93 米 )， 以 头 球 能 力 著 称 。 守 方 了 
场 的 替补 门将 换 下 。 除 此 之 外 ， 史 哮 的 大 风 使 长 传 难以 控制 。 那 么 ， 如 何 计算 


一 次 






































E 选 门将 刚刚 受伤 ， 被 第 






































进 球 的 概率 ? 
图 1-2 展示 了 使 用 概率 推理 系统 找 出 答案 的 途径 。 您 在 一 个 角球 模型 中 编码 关于 角 
球 和 所 有 相关 因素 的 知识 。 然 后 ， 提 供 特 定 角球 的 证 据 ， 也 就 是 中 锋 个 子 很 高 、 和 守门 员 


























缺乏 经 验 以 及 强风 。 您 告诉 该 系统 ， 希 望 知道 这 次 角球 是 否 进 球 。 推 理 算法 返回 答案 一 
一 有 20% 的 概率 进 球 。 





























2. 您 提供 关于 特定 角 
球 先决 条 件 的 知识 







人 
1 .编码 您 关于 角球 的 概率 推理 系统 
知识 和 相关 因素 ~ 





证 据 
* 高 中 锋 

* 没有 经 验 的 守门 员 
* 强风 











5 系统 以 概率 的 一 3, 您 告诉 系统 想 要 








形式 返回 答案 | 知道 什么 样 的 结 
4 系统 使 用 推理 算法 预测 结果 一 
图 1-2 ”概率 推理 系统 预测 角球 结果 的 方法 
关键 定义 
一 般 知 识 一 一 不 考虑 特定 情况 细节 时 ， 对 领域 相关 情况 的 概括 了 解 。 











概率 模型 一 一 用 定量 的 概率 术语 编码 的 领域 一 般 知识 。 

证 据 一 一 关于 特定 情况 的 具体 信息 。 

查询 一 一 您 希望 知道 的 情况 属性 。 

推理 一 一 概率 模型 根据 证 据 回答 查询 的 过 程 。 

在 概率 推理 中 , 您 创建 一 个 模型 , 以 定量 的 概率 术语 捕捉 领域 的 所 有 相关 一 般 知识 。 
在 我 们 的 例子 中 ,这 个 模型 可 能 是 对 角球 情况 和 影响 结果 的 所 有 球员 相关 特征 及 条 件 的 
首 述 。 然 后 ， 对 于 茶 个 特定 情况 ， 您 将 该 模型 应 用 于 所 拥有 的 具体 信息 ， 得 出 结论 。 这 
些 具体 信 息 称 为 证 据 。 在 本 例 中 ， 证 据 是 中 锋 身 材 高 大 ， 和 守门 员 缺 乏 经 验 ， 风 力 很 大 。 
所 得 出 的 结论 可 以 帮助 您 决策 一 例如， 您 是 否 应 该 在 下 一 场 比赛 中 更 换 不 同 的 守门 
员 。 结 论 本 身 以 概率 的 方式 描述 ， 比 如 守门 员 的 不 同 技能 水 平 的 概率 。 

















































































































1.1 什么 是 概率 编程 7 


模型 、 您 所 提供 的 信息 和 查询 答案 之 间 的 关系 由 数学 上 的 概率 法 则 定义 ,根据 证 据 ， 
运用 模型 回答 查询 的 过 程 称 作 概率 推理 或 者 简单 地 称 作 扒 理 。 夫 运 的 是 ,计算 机 算法 已 
经 有 了 很 大 的 发 展 ， 能 够 为 您 完成 这 些 数学 题 ， 自 动 进行 所 有 必要 的 计算 。 这 些 算法 被 
称 作 推理 算法 。 
图 1-3 总 结 了 您 所 学 到 的 知识 。 















































pe 概率 推理 系统 证 据 包含 关于 某 个 
拓宽 型 表达 关于 茶 情况 的 具体 信息 
情况 的 一 般 知识 一 一 一 、 | 

\ 


推理 算法 根据 证 据 ， 
使 用 模型 回答 查询 一 




















查询 的 答案 以 不 同 “一 查询 表达 帮助 你 
结果 概率 的 形式 给 出 做 出 决策 的 事物 


图 1-3 ”概率 推理 系统 的 基本 组 成 部 分 





简 言 之 ， 我 们 刚刚 讨论 的 是 概率 推理 系统 的 组 成 ， 以 及 与 之 互动 的 方式 。 但 是 ， 如 
何 利用 这 样 的 系统 ? 它 如 何 帮 助 您 决策 ? 下 一 小 节 描 述 了 概率 推理 系统 所 能 执行 的 3 类 
推理 。 


















































1.1.3 ”概率 推理 系统 有 3 种 方式 推理 


概率 推理 系统 很 灵活 。 它 们 可 以 根据 任何 方面 的 证 据 ， 回 答 关 于 情况 其 他 特征 的 碍 
询 。 在 实践 中 ， 概 率 推 理 系统 执行 3 类 推理 。 
加 ”预测 未 来 的 事件 。 在 图 1-2 中 您 已 经 看 到 
球 。 您 的 证 据 通 常 包 括 关 于 当前 情况 的 
风力 。 
国 ee 高 个 中 锋 刚刚 头 球 射 门 ， 从 守门 员 映 下 
租 一 分 。 根 据 这 一 证 据 ， 您 对 这 位 新 手 守门 员 有 何 想法 ? 您 能 否 得 出 结论 ， 她 
ns \ 足 ? 图 1-4 说 明 如 何 使 用 概率 推理 系统 回答 这 个 问题 。 该 模 Ny 
前 用 于 预测 是 否 进 球 的 同一 个 角球 模型 (这 是 概率 推理 的 一 个 实用 忆 










































































后 - 


类 推理 ,根据 当前 情况 预测 是 
息 ， 如 中 锋 身 高 、 ee 


















































hk 

























































































预测 未 来 结果 
样 ， 并 结合 
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技能 水 平 的 概率 。 


推理 算法 根据 所 有 已 知 


先决 条 件 和 结果 做 出 关 


于 查询 的 推理 





想 想 看 ， 第 一 种 推 到 


图 1-4 






答 
.技能 不 佳 : 50%; 
普通 : 30%; 出 色 : 20% 


变 查询 和 证 据 ， 系 统 现在 可 以 推断 出 进 球 的 原 


模式 





























概率 推理 系统 


述 了 前 向 推理 











的 模型 同样 可 以 在 事后 推断 结果 的 根源 )。 使 用 的 证 据 和 以 前 一 














证 据 包括 先决 
条 件 和 结果 的 
知识 “| 


* 


证 据 
* 先决 条 件 


高 中 锋 
“缺乏 经 验 的 守门 员 


* 守门员 是 否 出 色 ? 
个 





六 











了 和 角球 得 分 这 一 事实 。 查 询 是 守门 员 的 技能 水 平 ， 管 案 提 供 了 不 同 





查询 产生 这 一 结果 的 可 能 原因 


E， 根 据 对 当前 情况 的 了 解 预 测 未 来 的 


事件 ， 而 第 二 种 推理 模式 描述 了 后 向 推理 ， 根 据 当 前 结果 推断 过 去 的 条 件 。 在 


构建 概率 模型 时 ， 模 型 本 身 通常 遵 
用 于 球 ， 中 锋 跃 起 头 球 ， 守 门 员 做 出 扑救 。 但 是 推理 
E 之 一 ， 我 在 本 书 中 将 反复 














是 概率 推 天 














的 关键 特 行 











定 遵循 模型 的 方向 。 
图 ”从 过 去 的 事件 中 学 习 ， 更 好 地 预测 未 来 的 事件 。 现在， 再 快 进 10 分 钟 。 同 一 球 
高 中 锋 、 缺乏 经 验 的 守门 员 ， 


队 又 获得 






































它 利 ) 











一 次 角球 机 会 。 所 有 情况 与 前 
但 是 现在 风力 减弱 了 。 使 用 概率 推 
您 预测 下 一 次 角球 的 结果 。 
( 注 明 其 来 自 上 一 次 ) 以 及 当前 情况 的 新 信息 。 在 回答 这 次 
时 算法 首先 推断 导致 第 

















次 进 























盾 自 然 的 时 间 顺 序 。 一 名 球员 踢 角球 ， 风 作 



































理 ， 可 以 利用 





目 类 似 


























图 1-5 说 明了 这 一 点 。 



































可 以 向 前 和 向 后 进行 。 这 


EE 申 这 一 点 : 推理 的 方向 不 一 


前 一 次 角球 发 生 的 情况 ， 帮 助 





证 据 包括 上 一 次 的 所 有 证 据 





























朋 球 能 否 进 球 时 ， 推 
球 的 条 件 , 例如 中 锋 和 守门 员 的 技能 水 平 。 然后 ， 
] 这 些 更 新 的 属性 做 出 关于 新 情况 的 决策 。 











1. 


推理 算法 根据 前 一 次 的 | 
情况 进行 推理 ， 推 断 新 ”一 


1 ”什么 是 概率 编程 


概率 推理 系统 





证 据 包含 先决 条 件 和 
之 前 情况 的 结果 ， 以 
及 当前 情况 的 先决 条 件 


\ 


缺乏 
强风 


经 验 的 守门 员 


情况 中 的 因素 (如 守门 查询 
员 的 技能 水 平 “ 这 次 角球 能 否 进 球 ? 
‘ 
答案 \ 
算法 利用 这 些 Bd sj : 25%; 未 j : 75% \ 
因素 改进 对 新 一 a nis ise | 
情况 结果 的 预测 查询 的 是 新 情况 的 结果 





到 1-5 ”通过 将 上 一 次 角球 的 结果 考虑 在 内 ， 概 率 推理 系统 可 以 在 下 一 次 角球 时 做 出 更 好 的 预测 


这 些 类 型 的 查询 能 够 帮助 您 做 

















图 ”您 可 以 根据 有 无 额外 防守 队员 进 
































可 以 根据 对 守门 员 技能 的 评 佑 ， 决 定 下 一 次 合同 谈判 时 向 他 提 H 





队员 。 

于 口 

国 可 以 利用 了 解 到 的 守门 员 相 关 情 况 ， 
用 同一 名 守门 员 。 

学 习 更 好 的 模型 


8 许多 层次 上 的 决策 。 
球 的 概率 ， 决 定 是 否 用 一 名 防守 




















帮助 预测 下 一 场 比赛 的 结 























上 述 3 种 推理 模式 提供 了 特定 情况 、 给 定 订 
















































































队员 替换 进攻 














的 工资 数额 。 


， 决 定 是 否 使 




















E 据 下 的 推理 手段 ， 利 用 概率 推理 系统 ， 
还 可 以 从 过 去 的 情况 中 学 习 ， 改 善 您 的 一 般 知识 。 在 第 三 种 推理 模式 中 ， 您 了 解 到 如 何 


从 特定 的 过 去 经 验 学 习 ， 更 好 地 预 涡 











上 未 来 的 情况 。 另 一 种 从 过 去 的 经 验 中 学 习 的 方法 是 


改善 模型 本 身 。 特 别 是 在 拥有 许多 过 去 的 经 验 可 以 吸取 时 《如 许多 次 角球 )， 您 可 能 希 
望 学 习 一 个 新 模型 ， 以 表示 角球 通常 发 生 情况 的 一 般 知 识 。 如 图 1-6 所 示 


出 























一 个 学 习 算 法 实现 。 与 推理 算法 有 些 不 同 ， 学 习 算 法 的 目标 是 产生 新 的 模型 而 不 是 加 











查询 。 学 习 算法 从 原始 模型 入 手 ， 根 据 经 验 更 新 之 ， 产 生 新 的 模型 。 新 模型 可 以 用 于 回 














答 未 来 的 问题 。 可 以 推测 ， 使 月 




















， 这 可 以 通过 
答 

















日 新 模型 产生 


的 答案 应 该 比 原始 模型 更 明智 。 
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概率 推理 系统 与 精确 的 预测 

和 任何 机 器 学 习 系 统一 样 ， 概 率 推 理 系 统 得 到 的 数据 越 多 ， 预 测 就 越 精确 。 预 测 的 质量 取 
决 于 两 个 因素 : 原始 模型 精确 反映 现实 情况 的 程度 和 您 所 提供 的 数据 量 。 一 般 来 说 ， 提 供 的 数 
据 越 多 , 原始 模型 就 越 不 重要 , 这 是 因为 新 模型 是 原始 模型 和 数据 所 包含 信息 之 间 的 一 个 平衡 。 
如 果 您 的 数据 很 少 ， 原 始 模型 占据 统治 地 位 ， 所 以 它 的 质量 必须 很 高 才能 得 出 准确 的 预测 。 如 
果 您 拥有 许多 数据 ， 数 据 将 占据 统治 地 位 ， 新 模型 倾向 于 忘掉 不 那么 重要 的 原始 模型 。 例 如 ， 
如 果 您 从 整个 足球 赛季 中 学 习 ， 应 该 能 够 准确 地 学 习 到 影响 角球 的 因素 。 如 果 只 有 一 场 比赛 的 
数据 ， 就 需要 首先 对 精确 预测 比赛 所 需 的 因素 有 出 色 的 想法 。 概 率 推 理 系统 将 很 好 地 利用 给 定 
的 模型 和 可 用 数据 ， 尽 可 能 精确 地 做 出 预测 。 






















































































































































































数据 由 关于 之 前 情况 的 证 据 组 成 


概率 推理 系统 \ 
y 
原始 角球 模型 
过 去 的 经 验 1 
“高 中 锋 
“缺乏 经 验 的 守门 员 
“强风 
过 去 的 经 验 2 
学 习 算 法 用 原始 模型 ” 一 | > 学 习 算 法 过 去 的 经 验 3 等 
和 数据 产生 新 模型 
前 
后 提供 关于 新 情况 的 证 据 
新 角球 模型 \ 
y 
新 证 据 
高 中 锋 
。 人 ] 员 
。 弱 风 
推理 算法 用 新 模型 “一 推理 算法 四 
回答 关于 新 情况 的 


答 查询 
本 一 ”| 。 这 次 角球 能 否 得 分 ? 


ES 
* 进 球 : 15%; 未 进 球 : 85% 


图 1-6 可 以 使 用 学 习 算法 ， 以 一 组 经 验 为 基础 学 习 新 的 模型 。 然 后 ， 这 个 新 模型 可 以 用 于 未 来 的 推断 
现在 ， 您 已 经 了 解 了 概率 推理 的 概念 。 那 么 ， 什 么 是 概率 编程 ? 
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1.1.4 概率 编程 系统 : 用 编程 语言 表达 的 概率 推理 系统 


每 个 概率 推理 系统 都 使 用 某 种 表示 语言 表达 其 概率 模型 。 表 示 语 言 有 许多 种 ， 您 可 
能 已 经 听 说 了 其 中 一 些 ， 如 贝 叶 斯 网 络 〈 也 称 作 置信 网 络 ) 和 隐 含 马尔 科 夫 模型 。 表 示 
语言 控制 系统 可 处 理 的 模型 以 及 模型 的 情况 。 语 言 所 能 表示 的 一 组 模型 称 作 语言 的 表达 
能 力 。 对 于 实际 应 用 ， 您 肯定 希望 表达 能 力 尽 可 能 强 。 

简单 地 说 ， 概 率 编程 系统 是 以 编程 语言 作为 表示 语言 的 概率 推理 系统 。 我 所 说 的 编 
程 语言 是 指 具 有 编程 语言 所 有 预期 特征 〈 如 变量 、 丰 富 的 数据 类 型 、 控 制 流 、 函 数 等 ) 
的 语言 。 正 如 您 将 要 看 到 的 ， 概 率 编 程 语言 可 以 表达 极其 广泛 的 概率 模型 ， 超 越 传统 的 
概率 推理 框架 。 概 率 编程 语言 有 极 强 的 表达 能 力 。 

图 1-7 说 明了 概率 编程 系统 与 概率 推理 系统 的 关系 。 可 以 将 该 图 与 图 1-3 比较 ， 
以 凸显 两 种 系统 之 间 的 差别 。 主 要 的 变化 是 ， 模 型 以 编程 语言 编写 的 程序 表达 ， 而 不 
使 用 贝 叶 斯 网 络 等 数学 结构 。 由 于 这 种 变化 ， 证 据 、 查 询 和 答案 都 应 用 到 程序 中 的 变 
量 。 证 据 可 能 指定 程序 变量 的 特定 值 ， 查 询 询 问 程序 变量 的 值 ， 答 案 是 不 同 查询 变量 
值 的 概率 。 此 外 ， 概 率 编程 系统 通常 带 有 一 套 推理 算法 。 这 些 算法 适用 于 以 该 语言 纺 
写 的 程序 。 
































































































































































































































































































模型 是 以 某 种 纺 
程 语言 编写 的 程 
序 表达 ， 而 不 是 
使 用 数学 结构 


证 据 与 程序 变量 值 相关 


概率 编程 系统 提 
供 一 套 推 理 算法 ， 
适用 于 以 该 语言 
编写 的 模型 








答案 是 不 同 查询 。 一 > | 
ee 查询 用 于 了 解 其 他 程序 变量 值 


图 1-7 概率 编程 系统 是 使 用 编程 语言 表示 概率 模型 的 概率 推理 系统 





尽管 存在 许多 类 概率 编程 系统 (参见 附录 B)， 本 书 的 重点 是 函数 式 的 图 灵 完 备 系 
统 。 函 数 式 意 味 着 它们 基于 函数 式 编程 ， 但 是 不 要 被 它 吓 住 一 -使 用 函数 式 概率 编程 


系统 并 不 需要 知道 和 函数 〈lambda) 等 概念 。 这 一 切 只 意味 着 ， 函 数 式 编 程 提供 了 这 
些 语言 表示 概率 模型 的 理论 基础 。 同 时 ， 图 灵 完 备 是 一 句 行 话 ， 表 示 编 程 语 言 可 以 编 
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写 任何 能 在 数字 计算 机 上 完成 的 计算 。 如 果 某 一 运算 可 以 在 数字 计算 机 上 完成 ， 就 可 
以 由 任何 图 灵 完 备 语言 实现 。 您 所 熟悉 的 大 部 分 编程 语言 ， 如 C、Java 和 Python， 都 
是 图 灵 完 备 的 。 因 为 概率 编程 语言 构建 于 图 灵 完 备 编程 语言 基础 上 ， 它 们 可 以 构建 的 
模型 类 型 极其 灵活 。 

关键 定义 

表示 语言 一 一 用 于 编码 关于 模型 领域 知识 的 语言 。 

表达 能 力 一 一 表示 语言 编码 模型 中 不 同类 型 知识 的 能 

图 灵 完 备 一 一 能 够 表示 可 在 数字 计算 机 完成 的 任何 计算 的 语言 。 

概率 编程 语言 一 一 使 用 图 灵 完 备 编程 语言 表示 知识 的 概率 表示 语言 

附录 B 论述 了 除 本 书 使 用 的 Figaro 之 外 的 一 些 概率 编程 系统 。 这 些 系统 大 部 分 都 使 
图 灵 完 备 语言 。 有 一 些 系统 〈 包 括 BUGS 和 Dimple) 没有 使 用 图 灵 完 备 语言 ， 但 是 
门 对 目标 应 用 很 实用 。 本 书 主 要 关注 图 灵 完 备 概 率 编程 语言 的 能 力 。 

将 概率 模型 表示 为 程序 
但 是 , 编程 语言 如 何 成 为 概率 建 模 语言 ? 如 何 将 概率 模型 表示 为 程序 ? 我 将 在 这 里 
提出 回答 这 一 问题 的 一 些 线索 ， 将 更 深入 的 讨论 放 在 稍 后 的 章节 ， 那 时 您 已 经 对 概率 程 
序 有 所 了 解 。 
编程 语言 的 核心 思路 之 一 是 执行 。 您 执行 一 个 程序 以 产生 输出 。 概 率 程序 也 类 似 ， 
但 是 它 可 以 有 许多 执行 路 径 ， 每 个 路 径 产 生 不 同 的 输出 。 在 程序 中 随机 选择 执行 路 径 ， 
每 个 随机 的 选择 有 许多 可 能 的 结果 ， 程 序 编码 每 种 结果 的 概率 。 因 此 ， 概 率 程序 可 以 视 
为 随机 执行 以 产生 输出 的 一 个 程序 。 
图 1-8 说 明了 上 述 概念 。 在 图 中 ， 概 率 编程 系统 包含 个 角球 程序 。 这 个 程序 描 
述 生 成 角球 结果 的 随机 过 程 ， 它 取得 一 些 输入 ; 在 我 们 的 例子 中 ， 这 些 输 入 是 中 锋 的 身 
高 、 守 门 员 的 经 验 和 风力 。 根 据 这 些 输入 ， 程 序 随 机 执行 以 生成 输出 。 每 次 随机 执行 产 
生 特 定 的 输出 。 因 为 每 个 随机 选择 都 有 多 种 可 能 结果 ， 存 在 许多 可 能 的 执行 路 径 ， 造 成 
不 同 的 输出 。 任 何 给 定 输出 (如 进 球 ) 可 能 由 多 个 执行 路 径 产 生 。 
让 我 们 来 看 看 ， 这 种 程序 如 何 定 义 概率 模型 。 从 一 系列 随机 选择 形成 的 任何 特定 执 

行路 径 都 有 特定 的 结果 。 每 个 随机 选择 都 有 发 生 的 概率 。 如 果 将 这 些 概率 相 乘 ， 就 可 以 
得 到 执行 路 径 的 概率 。 这 样 ， 程 序 定 义 了 每 个 执行 路 径 的 概率 。 想 象 一 下 ， 如 果 将 该 程 
序 运行 许多 次 ， 生 成 任何 给 定 执行 路 径 的 次 数 比例 等 于 其 概率 。 输 出 的 概率 就 是 产生 该 
输出 的 程序 运行 次 数 比 例 。 在 图 1-8 中 ，L/4 的 运行 产生 进 球 的 结果 ， 所 以 进 球 概率 为 
1/4。 
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1.1 什么 是 概率 编程 







中 沁 程 至 综 
1. 概率 程序 描述 根据 输入 概率 编程 系统 
随机 生成 输出 的 过 程 


* 高 中 锋 
* 缺乏 经 验 的 守门 员 


“强风 


2. 根据 输入 ， 程 序 可 
以 随机 执行 许多 次 ， 
以 产生 不 同 输出 








图 1-8 ”概率 程序 定义 按照 输入 随机 生成 输出 的 过 程 
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3. 输出 的 概率 是 产生 该 
输出 的 执行 路 径 的 概 
率 。 在 这 个 例子 中 ， 
进 球 的 概率 为 1/4 














注意 : 您 可 能 疑 式 于 为 什么 图 1-8 中 的 块 标签 为 “随机 执行 ”而 不 是 其 他 插图 中 的 推理 算法 。 
































方式 一 一 使 用 推理 算法 根据 证 据 回答 查询 。 所 以 ， 尽管 上 述 插图 的 结构 类 似 ， 





























了 不 同 的 概念 。 事 实 上 ， 随 机 执行 形成 了 某 些 推理 算法 的 基 
简单 的 随机 执行. 





利用 概率 编程 决策 











作为 输入 ， 并 观察 每 个 输出 的 出 现 次 数 。 在 








认定 在 这 些 输入 条 件 下 ， 进 球 概率 为 25%。 














础 ， 





加 1-8 展示 了 概率 程序 的 含义 一 一 定义 一 个 随机 执行 过 程 ， 而 不 是 使 用 概率 编程 系统 的 





但 是 表达 














但 是 许多 算法 并 不 基于 


























使 用 概率 编程 预测 未 来 很 容易 理解 。 只 要 随机 多 次 执行 程序 ， 使 用 当前 已 知 的 信息 
图 1-8 的 角球 示例 中 ， 多 次 执行 该 程序 ， 以 
高 中 锋 、 缺 乏 经 验 的 守门 员 和 强风 作为 输入 。 因 为 /4 的 运行 得 




















时 进 球 的 结果 ， 您 可 以 











但 是 ， 概 率 编程 的 魔法 在 于 ， 它 还 可 以 用 于 1.3.1 小 节 中 描述 的 各 类 概率 推理 。 概 
率 编程 不 仅 可 用 于 预测 未 来 ， 还 可 以 推断 导致 特定 结果 的 事实 ;您 可 以 “展开 ”程序 ， 






















































































发 现 结果 的 根源 ， 还 可 以 在 某 种 情况 下 应 用 程序 ， 从 结果 



























































言 恩 做 出 更 好 的 决策 。 可 以 使 用 概率 编程 做 出 所 有 通过 概率 思想 得 到 的 决 





















































学 习 ， 在 未 来 使 用 学 习 到 的 


aran 


来。 





概率 编程 是 如 何 工作 的 ? 当 人 们 意识 到 ， 在 较 简单 的 表示 语言 《如 贝 叶 斯 网 络 ) 上 









































有 效 的 推理 算法 可 以 扩展 到 程序 上 时 ， 概 率 编程 就 变 得 实 月 

















日 了 。 本 书 的 第 





3 部 分 介绍 实 
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现 这 一 扩展 的 各 种 推理 算法 。 幸 运 的 是 ， 概 率 编 程 系统 自 带 一 些 内 建 的 推理 算法 ， 这 些 
算法 可 以 自动 地 应 用 到 您 的 程序 中 。 您 所 需要 做 的 是 以 概率 程序 的 形式 提供 领域 知识 并 
指明 证 据 ， 系 统 负责 推断 和 学 习 。 

在 本 书 中 ， 您 将 学 习 通过 概率 编程 进行 概率 推理 。 首 先 ， 您 将 学 习 概率 模型 的 概念 
以 及 使 用 它 得 出 结论 的 方法 。 您 还 将 学 习 一 些 从 简单 组 件 构成 的 模型 中 得 出 那些 结论 所 
需 进行 的 操作 。 您 将 学 习 各 种 建 模 技 术 ， 以 及 使 用 概率 编程 实现 它们 的 方法 ， 还 将 了 解 
概率 推理 算法 的 工作 原理 ， 以 便 有 效 地 设计 和 使 用 自己 的 模型 。 在 阅读 完 本 书 之 后 ， 您 
将 能 够 自信 地 使 用 概率 编程 得 出 有 益 的 结论 ， 帮 助 您 在 面 对 不 确定 性 时 做 出 决策 。 


































































































































































































































































































1.2 为 什么 使 用 概率 编程 


概率 推理 是 机 器 学 习 的 基础 技术 之 一 。Google、Amazon 和 Microsoft 等 公司 使 用 它 
理解 可 用 数据 。 概 率 推 理 已 经 用 于 各 种 各 样 的 应 用 程序 ， 如 预测 股价 、 推 荐 电影 、 诊 断 
计算 机 和 检测 网 络 入 侵 。 许 多 应 用 都 使 用 了 本 书 中 将 要 学 习 的 技术 。 

前 一 小 节 中 ， 有 两 个 引 人 注 目的 要 点 。 

田 ”概率 推理 可 用 于 预测 未 来 、 推 断 过 去 ， 以 及 从 过 去 的 

来 。 

加 ”概率 编程 是 使 用 图 灵 完 备 编程 语言 作为 表示 语言 的 概率 推理 。 

将 上 面 两 个 要 点 结合 起 来 ， 可 以 得 到 如 下 表示 。 

事实 : 概率 推理 + 图 灵 完 备 = 概率 编程 

概率 编程 的 动机 是 将 两 个 本 身 就 很 强大 的 概念 结合 起 来 , 结果 是 使 用 计算 机 辅助 不 
确定 性 下 决策 的 更 简单 、 更 灵活 方法 。 
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学 习 更 好 地 预测 未 








夺 头 






































































































































1.2.1 更 好 的 概率 推理 


大 部 分 现 有 概率 表示 语言 在 所 能 表示 的 系统 丰富 性 上 都 很 有 限 。 有 些 相 对 简单 的 语 
言 《 如 贝 叶 斯 网 络 ) 假定 固定 的 变量 集 ， 其 灵活 性 不 足 ， 不 能 建立 变量 本 身 可 能 变化 的 
领域 模型 。 近年 来 , 已 经 有 一 些 具有 更 高 灵活 性 的 先进 语言 开发 出 来 。 其 中 一 些 语言 (如 
BUGS) 还 提供 了 编程 语言 的 特征 ， 包 括 循环 和 数组 ， 但 是 没有 达到 图 灵 完 备 。BUGS 
等 语言 的 成 功 说 明了 更 丰富 、 结 构 更 严整 的 表示 方式 的 必要 性 。 但 是 ， 向 成 熟 的 图 灵 完 
备 语言 转移 ， 为 概率 推理 开拓 了 一 个 新 领域 。 现 在 ， 可 以 建立 具有 许多 交互 实体 及 事件 
的 长 期 运行 过 程 的 模型 。 

我 们 再 次 考虑 足球 的 例子 ， 但 是 这 次 想象 一 下 ， 您 的 工作 是 体育 分 析 ， 和 希望 为 一 支 
球 队 做 出 人 员 配 备 决 策 的 建议 。 您 可 以 使 用 积累 的 统计 数字 做 出 决策 ， 但 是 统计 数字 不 
能 捕 提 积 累 它 们 时 所 处 的 背景 。 您 可 以 建立 赛季 的 细致 模型 ， 实 现 粒度 更 细 、 情 境 感 知 





















































































































































































































































































































































1.2 ”为 什么 使 用 概率 编程 15 




















的 分 析 。 这 要 求 建立 许多 相关 事件 以 及 相互 作用 的 球员 和 球 队 的 模型 。 如 果 没 有 完整 的 
编程 语言 所 提供 的 数据 结构 和 控制 流 ， 构 建 这 种 模型 是 难以 想象 的 。 

现在 ， 让 我 们 再 次 思考 产品 投放 的 例子 ， 从 综合 的 角度 观察 业务 决策 过 程 。 产 品 
放 不 是 孤立 事件 ， 而 是 经 过 市 场 分 析 、 研 究 和 开发 的 过 程 ， 各 个 过 程 的 结果 都 有 不 确 
性 。 产 品 投放 的 结果 取决 于 所 有 阶段 ， 以 及 市 场 中 其 他 产品 的 分 析 。 全 面 的 分 析 还 需 
关注 竞争 对 手 对 您 的 产品 的 反应 ， 以 及 他 们 可 能 提出 的 新 产品 。 这 一 问题 很 困难 ， 因 
您 必须 对 竞争 产品 做 出 推测 。 甚 至 有 一 些 竞 争 对 手 尚 不 为 人 所 知 。 在 这 个 例子 中 产 
是 复杂 过 程 产生 的 数据 结构 。 同 样 ， 用 完整 的 编程 语言 创建 模型 很 有 益处 。 

不 过 ， 概 率 编程 的 好 处 之 一 是 ， 可 以 使 用 更 简单 的 概率 推理 框架 。 概 率 编程 系统 

可 以 表示 广泛 的 现 有 框架 ， 以 及 这 些 框架 所 不 能 表示 的 系统 。 本 书 将 传授 许多 使 用 概 
率 编程 的 此 类 框架 。 所 以 ， 在 概率 编程 的 学 习 中 ， 您 还 能 够 精通 许多 当今 常用 的 概率 
推理 框架 。 
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1.2.2 更 好 的 模拟 语言 后 


图 灵 完 备 的 概率 建 模 语言 已 经 存在 。 它 们 常常 被 称 作 模拟 语言 。 我 们 知道 ， 使 用 
编程 语言 模拟 足球 赛季 等 复杂 过 程 是 可 能 的 。 在 这 种 情境 下 ， 我 使 用 模拟 语言 这 一 术 
语 描述 能 够 表示 复杂 过 程 随机 执行 的 语言 。 正 如 概率 程序 ， 这 些 模 拟 随 机 执行 ， 以 产 
生 不 同 输出 。 模 拟 和 概率 推理 一 样 应 用 广泛 ， 涵 盖 了 从 军事 计划 到 组 件 设计 以 及 公共 
卫生 及 体育 比赛 预测 等 范围 。 确 实 ， 精 密 模拟 的 广泛 使 用 说 明了 对 丰富 概率 建 模 语 言 
的 需求 。 
但 是 ， 概 率 程序 远 不 仅 是 模拟 。 使 用 模拟 ， 您 
未 来 。 无 法 用 它 推 断 观测 结果 的 根源 。 而 到 
拟 ， 但 是 很 难 包 含 必 须 推 断 的 未 知 信息 
析 的 能 力 很 有 限 。 不 能 将 模拟 用 了 机 器 学 习 。 
概率 程序 就 像 不 仅 可 以 运行 ， 而 且 可 以 分 析 的 模拟 一 样 。 开 发 概率 编程 的 关键 要 点 
是 ， 推 理 算法 既 可 用 于 较 简 单 的 建 模 框 架 ， 也 可 用 于 模拟 。 因 此 ， 您 有 能 力 编写 一 个 模 
拟 并 在 其 基础 上 执行 推理 ， 以 创建 概率 模型 。 
最 后 一 点 ， 概 率 推理 系统 已 经 出 现 了 一 段 时 间 ，Hugin、Netica 和 BayesiaLab 等 
软件 提供 了 贝 叶 斯 网 络 系统 。 但 是 概率 编程 更 有 表现 力 的 表示 语言 很 新 颖 ， 我 们 刚刚 
开始 发 现 其 强大 的 应 用 。 老 实说 ， 我 不 能 告诉 您 概率 编程 已 经 用 于 大 量 现 有 应 用 ， 但 
是 有 一 些 重要 的 应 用 。Microsoft 已 经 能 够 使 用 概率 编程 ， 确 定 在 线 游戏 玩家 的 真正 技 
能 水 平 。 加 州 大 学 伯克利 分 校 的 Stuart Russell 编写 了 一 个 程序 ， 通 过 识别 表明 核 爆 炸 
的 地 震 活 动 ， 帮 助 联合 国 《 全 面 禁 止 核 试验 条 约 》 的 实施 。 麻 省 理工 学 院 (MIT) 的 
Josh Tenenbaum 和 斯 坦 福 大 学 的 Noah Goodman 已 经 创建 了 建立 人 类 识别 模型 的 概率 
















































































































































































只 能 完成 概率 程序 的 一 项 功能 : 预测 
尽管 可 以 不 断 地 用 , 知 的 当前 信息 更 新 模 
中 从 过 去 经 验 中 学 习 以 改善 未 来 预测 和 分 
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1.3 


第 1 章 概率 编程 简介 














程序 ， 并 在 试验 中 取得 了 很 大 的 成 功 。 在 Charles River Analytics， 我 们 已 经 使 用 概率 
编程 推断 恶意 软件 实例 的 组 件 并 确定 它们 的 演变 。 但 是 ， 我 相信 这 些 应 用 仅仅 是 个 开 
始 。 将 会 有 越 来 越 多 的 人 用 概率 编程 系统 做 出 所 在 领域 的 决策 。 阅 读本 书 ， 您 也 有 机 
会 成 为 这 一 新 技术 的 尝鲜 者 。 



































Figaro 简介 : 一 种 概率 编程 语言 


在 本 书 中 ， 您 将 使 用 一 种 称 为 Figaro 的 概率 编程 系统 。( 我 用 莫扎特 的 歌剧 《 费 加 
罗 的 婚礼 》 中 的 角色 为 其 命名 。 我 喜爱 莫扎特 ， 并 在 该 剧 于 波士顿 的 一 次 演出 中 饰演 巴 
尔 托 洛 医 生 。)〉 本 书 的 主要 目标 是 教授 概率 编程 的 原则 ， 在 本 书 中 学 到 的 技术 应 该 可 以 
在 其 他 概率 编程 系统 上 沿用 。 附 录 B 简单 描述 了 现 有 的 一 些 系统 。 但 是， 本 书 还 有 第 二 
个 目标 一 一 帮助 您 获得 创建 使 用 概率 程序 的 亲身 体验 ， 并 提供 可 以 立即 使 用 的 工具 。 因 
此 ， 许 多 例子 都 用 Figaro 代码 实现 。 

Figaro 是 从 2009 年 开始 开发 的 一 个 开源 软件 ， 在 GitHub 上 维护 。 它 以 Scala 库 的 
形式 实现 。 图 1-9 说 明 Figaro 如 何 使 用 Scala 实现 概率 编程 系统 。 该 图 详细 说 明了 图 1-7， 


















































































































































概率 模型 采取 一 组 
Figaro 数 据 结构 ( 称 -~ 


作 元 素 ) 的 形式 Figaro 
元 素 对 应 于 模型 中 的 十 


变量 ， 如 中 锋 的 身高 一 一 


或 者 角球 结果 | 
Figaro 元 素 


Scala 





编写 Scala 代 码 一 
创建 这 些 元 素 


使 用 证 据 ， 在 您 
的 模型 上 运行 一 。 一 一 
个 Figaro 推 理 算法 ， 

执行 推理 


通过 Scala 函 数 调 一 
用 调用 推理 算法 


-一 
答案 提供 不 同 一 
元 素 值 的 概率 


图 1-9 Figaro 使 用 Scala 提供 概率 编程 系统 的 方法 
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后 者 描述 了 概率 编程 系统 的 主要 组 成 部 分 。 让 我 们 从 概率 模型 开始 ， 在 Figaro 中 ， 该 模 
型 由 任意 数量 的 数据 结构 ( 称 作 “ 元 素 ”) 组 成 。 每 个 元 素 代 表 在 您 的 情境 中 可 取 任 意 









































数量 值 的 一 个 变量 。 这 些 数据 结构 用 Scala 实现 ， 您 可 以 用 这 些 数据 结构 编写 Scala 程 
序 创建 模型 。 可 以 通过 关于 元 素 值 的 信息 提供 证 据 ， 也 可 以 指定 希望 在 查询 中 了 解 的 元 
素 。 至 于 推理 算法 ， 您 可 以 选择 一 个 Figaro 内 建 推理 算法 并 应 用 到 模型 上 ,根据 证 据 回 
答 您 的 查询 。 推 理 算法 以 Scala 实现 ， 其 调用 就 是 一 个 Scala 函数 调用 。 推 理 结果 是 查 
询 元 素 不 同 值 的 概率 。 
Figaro 内 嵌 于 Scala 提供 了 一 些 重大 优势 。 其 中 一 些 来 自 内 嵌 于 通用 宿主 语言 相对 
于 独立 概率 语言 的 优势 。 其 他 优势 则 是 因为 Scala 的 良好 特性 。 下 面 是 在 通用 宿主 语言 
内 嵌 概 率 编 程 语言 的 好 处 。 
田 ”证 据 可 以 用 宿主 语言 的 程序 得 出 。 例 如 ， 您 可 以 编写 一 个 程序 读 取 一 个 数据 文 
件 ， 以 某 种 方式 处 理 其 中 的 值 ， 并 将 其 作为 证 据 提 供给 Figaro 模型 。 在 独立 语 
言 中 ， 这 一 任务 要 难得 多 。 
国 ”类似 地 ， 您 可 以 在 一 个 程序 中 使 用 Figaro 提供 的 答案 。 例 如 ， 如 果 您 有 一 个 供 
足球 队 经 理 使 用 的 程序 ， 该 程序 可 以 取得 进 球 概率 ， 向 经 理 提出 建议 。 
国 。 可 以 在 概率 程序 中 骨 入 通用 代码 。 例 如 ， 假 设 您 有 一 个 模拟 头 球 在 空中 飞行 轨 
迹 的 物理 模型 ， 可 以 在 Figaro 元 素 中 加 入 这 个 模型 。 
加 ”可 以 使 用 通用 编程 技术 构建 Figaro 模型 。 例 如 ， 您 可 能 有 一 个 映射 ,包含 对 应 
于 球 队 中 所 有 球员 的 Figaro 元 素 ， 并 根据 情况 中 涉及 的 球员 选择 对 应 的 元 素 。 
下 面 是 选择 Scala 作为 内 内 概 率 编程 系统 的 宿主 语言 的 一 些 理 由 。 
图 ”Scala 是 一 个 函数 式 编程 语言 ， 因 此 Figaro 也 能 得 到 函数 式 编程 的 好 处 。 正 如 
我 在 第 2 部 分 中 所 说 明 的 ， 函 数 式 编程 对 概率 编程 有 帮助 ， 许 多 模型 可 以 自然 
地 以 函数 式 风格 编写 。 
加 ”Scala 是 面向 对 象 的 ， 其 优点 之 一 是 既是 函数 式 语 言 ， 又 具有 面向 对 象 的 特征 。 
Figaro 也 是 面向 对 象 的 。 正 如 第 2 部 分 中 将 要 说 明 的 ， 面 向 对 象 是 表达 概率 编 
程 中 多 种 设计 模式 的 有 用 手段 。 
最 后 ，Figaro 还 有 髓 入 Scala 之 外 的 一 些 优势 ， 包 括 : 
四 ”Figaro 能 够 表示 极其 广泛 的 概率 模型 。Figaro 元 素 的 值 可 以 为 任何 类 型 ， 包 括 
布尔 型 、 整 数 、 双 精度 数 、 数 组 、 树 、 图 等 。 这 些 元 素 之 间 的 关系 可 以 由 任何 
函数 定义 。 
Figaro 提供 了 使 用 其 条 件 和 约束 规定 证 据 的 丰富 框架 。 
Figaro 有 多 种 多 样 的 推理 算法 。 
Figaro 能 够 表示 和 推理 随时 间 变 化 的 动态 模型 。 
Figaro 能 够 在 其 模型 中 包含 明确 决策 ， 并 支持 最 优 决 策 的 推断 。 































































































































































































































































































































































































































































































































































































































































































































































































































































































18 第 1 章 概率 编程 简介 

















于 多 种 原因 ，Figaro 是 学 习 概 率 编程 的 出 色 语 言 。 
图 ”Figaro 以 Scala 库 的 形式 实现 , 可 以 用 于 Java 和 Scala 程序 , 很 容易 与 应 用 程序 
集成 。 
加 ”由 于 以 程序 库 而 非 独 立 语言 的 形式 实现 ，Figaro 提供 了 宿主 编程 语言 的 全 部 功 
能 ， 可 以 用 来 构建 模型 。Scala 是 高 级 的 现代 化 语言 ， 具 有 许多 有 用 的 程序 组 织 
功能 ， 使 用 Figaro 时 可 以 自动 获得 这 些 好 处 。 
国 ”从 所 提供 算法 的 范围 来 看 ，Figaro 堪 称 全 能 。 
本 书 强调 使 用 的 技术 和 实用 的 示例 。 只 要 有 可 能 ， 我 都 会 解释 建 模 的 一 般 原 则 ， 
并 描述 在 Figaro 中 的 实现 方法 。 不 管 您 最 终 使 用 哪 一 种 概率 编程 系统 ， 这 对 您 都 将 
大 有 神 益 。 并 不 是 所 有 系统 都 能 轻松 地 实现 本 书 中 的 所 有 技术 。 例 如 ， 现 有 的 面向 
对 象 概率 编程 系统 很 少 。 但 是 有 了 好 的 基础 ， 您 就 可 以 找 出 用 所 选 语言 表达 需求 的 
方法 。 
使 用 Scala 
为 为 Figaro 是 一 个 Scala 库 , 需要 Scala 的 知识 才能 使 用 Figaro。 本 书 是 关于 概率 编程 的 ， 
所 以 在 本 书 中 不 教授 Scala 的 知识 。Scala 的 出 色 学 习 资 源 很 多 ， 比 如 Twitter 的 Scala School 
http://twitter.github.io/scala_school )。 但 是 为 了 防止 您 对 Scala 不 自信 , 我 在 本 书 中 对 代码 中 
使 用 的 Scala 功能 加 以 说 明 。 即 使 您 还 不 了 解 Scala， 也 能 够 跟 上 本 书 的 进度 。 
从 概率 编程 和 Figaro 中 获 益 并 不 要 求 您 是 一 位 Scala 奇才 ， ee 一 些 较为 
高 级 和 星 涩 的 特性 。 但 是 ， 增 强 Scala 技能 有 助 于 成 为 更 好 的 Figaro 程序 员 。 您 甚至 会 发 现 ， 
阅读 本 书 也 可 以 提高 Scala 的 技能 。 
















































































































































































































































































































































































































































































































































































Figaro 与 Java 的 对 比 : 构建 简单 的 概率 编程 系统 


为 了 说 明 概率 编程 和 Figaro 的 好 处 ,我 将 展示 以 两 种 方式 编写 的 简单 概率 应 用 。 首 
先 , 我 说 明 用 Java (您 可 能 对 它 很 熟悉 ) 编写 这 种 应 用 的 方法 。 然后 , 我 将 展示 用 Figaro 
编写 的 Scala 应 用 。 尽 管 Scala 相对 Java 有 一 定 的 优势 ， 但 是 这 不 是 我 要 指出 的 主要 差 
别 。 关键 的 思路 是 ， Figaro 提供 了 表示 概率 模型 和 用 这 些 模型 进行 推理 的 能 力 ， 如 果 没 
有 概率 编程 ， 这 些 能 力 就 不 存在 。 

我 们 的 小 应 用 将 作为 Figaro 的 “Hello，World” 示 例 。 想 象 一 下 ， 有 个 人 早上 起 床 ， 
查看 天 气 是 否 晴 朗 ， 并 根据 天 气 发 出 问候 。 每 天 发 出 连续 两 天 的 问候 。 而 且 ， 第 二 天 的 
天 气 取 决 于 第 一 天 : 如 果 第 一 天 是 晴天 , 第 二 天 就 更 可 能 是 晴天 。 这些 陈述 可 以 由 表 1-1 
中 的 数字 量化 。 
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表 1-1 量化 “你 好 ， 世 界 ” 示 例 的 概率 































































































今天 的 天 气 
晴天 0.2 
不 是 晴天 0.8 
今天 的 问候 语 
“Hello, world!” 0.6 
如 果 今 天 是 晴天 
“Howdy, universe!” 0.4 
“Hello, world!” 0.2 
如 果 今 天 不 是 晴天 
”Oh no, not again” 0.8 
明天 的 天 气 
清 天 0.8 
如 果 今 天 是 晴天 
\ 是 晴天 0.2 
: 晴天 0.05 
如 果 今 天 不 是 晴天 - 
“是 晴天 0.95 
明天 的 问候 语 
“Hello, world!” 0.6 
如 果 明 天 是 晴天 : 
“Howdy, universe!” 0.4 
“Hello, world!” 0.2 
如 果 明 天 不 是 晴天 | 
“Oh no, not again” 0.8 
下 面 几 章 将 明确 解释 这 些 数 字 的 含义 。 现 在 ,我 们 直观 地 认为 今天 是 晴天 的 概率 为 
0.2, 也 就 是 说 , 今天 有 20% 的 可 能 放晴 ,同样 , 如 果 明 天 是 晴天 , 明天 的 问候 语 为 “Hello， 


world!” 的 概率 为 0.6， 也 就 是 说 问候 语 为 “Hello，world!” 有 60% 的 可 能 性 ，“Howdy, 
universe!” 的 可 能 性 为 40%。 
我 们 为 自己 设 定 了 用 这 个 模型 执行 3 种 推理 任务 的 目标 。 在 1.1.3 小 节 中 您 已 经 知 
道 ， 用 概率 模型 能 够 进行 3 类 推理 : 预测 未 来 ， 推 断 导 致 观测 结果 的 过 去 事件 ， 从 过 去 
事件 中 学 习 以 更 好 地 预测 未 来 。 您 将 用 我 们 的 简单 模型 完成 这 三 种 任务 。 有 具体 任务 如 下 。 
1. 预测 今天 的 问候 语 。 
2. 如 果 观 测 发 现今 天 的 问候 语 是 “Hello, world!”， 推断 今天 是 不 是 晴天 。 
3. 从 今天 对 问候 语 是 “Hello, world!” 这 一 观测 值 的 学 习 ， 预 测 明天 的 问候 语 。 
下 面 是 用 Java 完成 这 些 任务 的 方法 。 
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程序 清单 1-1 用 ava 实现 的 Hello World 程序 


class HelloWworldJava { 























static String greetingl = "Hello, world!"; 

static String greeting2 = "Howdy, universe!"; 定义 

static String greeting3 = "Oh no, not again"; 问候 语 

static Double pSunnyToday = 0.2; 

static Double pNotSunnyToday = 0.8; 

static Double pSunnyTomorrowIfSunnyToday = 0.8; 

static Double pNotSunnyTomorrowIfSunnyToday = 0.2; 

static Double pSunnyTomorrowIfNotSunnyToday = 0.05; 

static Double pNotSunnyTomorrowIfNotSunnyToday = 0.95; 

static Double pGreetinglTodayIfSunnyToday = 0.6; 指定 模型 的 
static Double pGreeting2TodayIfSunnyToday = 0.4; 数值 参数 
static Double pGreetinglTodayIfNotSunnyToday = 0.2; 

static Double pGreeting3TodayIfNotSunnyToday = 0.8; 

static Double pGreetinglTomorrowIfSunnyTomorrow = 0.6; 

static Double pGreeting2TomorrowIfSunnyTomorrow = 0.4; 

static Double pGreetinglTomorrowIfNotSunnyTomorrow = 0.2; 

static Double pGreeting3TomorrowIfNotSunnyTomorrow = 0.8; 

static void predict() { 


Double pGreetinglToday = 
pSunnyToday * pGreetinglTodayIfSunnyToday + 


用 概率 推理 


pNotSunnyToday * pGreetinglTodayIfNotSunnyToday; 





见 则 预测 今 
System.out .println("Today's greeting is " + greetingl + 0 
OD 
"with probability " + pGreetinglToday + "."); 的 问候 语 
} 
static void infer() { 
Double pSunnyTodayAndGreetinglToday = 
pSunnyToday * pGreetinglTodayIfSunnyToday; 按照 今天 的 问 


Double 


pNotSunnyTodayAndGreetinglToday = 
pNotSunnyToday * pGreetinglTodayIfNotSunnyToday; 


候 语 是 “Hello， 
world!” 这 一 观 





Double pSunnyTodayGivenGreetinglToday = 测 值 ， 运用 概 
pSunnyTodayAndGreetinglToday / 率 推理 原则 推 
(pSunnyTodayAndGreetinglToday + 断 今 天 的 天 气 


System. 


mm 
了 


pNotSunnyTodayAndGreetinglToday); 
out.println("If today's greeting is " + greetingl + 


today's weather is sunny with probability " + 


pSunnyTodayGivenGreetinglToday + "."); 





1.3 Figaro 简介 : 一 种 概率 编程 语言 


static void learnAndPredict() { 


Double 


Double 


Double 


Double 


Double 


Double 


Double 


System. 


mm 
了 


pSunnyTodayAndGreetinglToday = 


pSunnyToday * pGreetinglTodaylIfSunnyToday; 


pNotSunnyTodayAndGreetinglToday = 


pNotSunnyToday * pGreetinglTodayIfNotSunnyToday; 


pSunnyTodayGivenGreetinglToday = 


pSunnyTodayAndGreetinglToday / 


(pSunnyTodayAndGreetinglToday + 


pNotSunnyTodayAndGreetinglToday); 


pNotSunnyTodayGivenGreetinglToday = 


1 - pSunnyTodayGivenGreetinglToday; 


pSunnyTomorrowGivenGreetinglToday = 


pSunnyTodayGivenGreetinglToday * 


pSunnyTomorrowIfSunnyToday + 


PNotSunny 


TodayGivenGreetinglToday * 


pSunnyTomorrowIfNotSunnyToday; 


pNot Sunny 


[TomorrowGivenGreetinglToday = 


1 - pSunnyTomorrowGivenGreetinglToday; 


pGreeting] 


TomorrowGivenGreetinglToday = 


pSunnyTomorrowGivenGreetinglToday * 


pGreetinglTomorrowIfSunnyTomorrow + 


pNot Sunny] 


TomorrowGivenGreetinglToday * 


pGreetinglTomorrowIfNotSunnyTomorrow; 





out .print] 


In("If today's greeting is " + greetingl + 


tomorrow's greeting will be " + greetingl + 


" with probability " 十 





pGreetinglTomorrowGivenGreetinglToday); 


public static void main(String[] args) { 


predict (); 


infer (); 


T 


执行 所 有 任 
务 的 主 方法 





learnAndPredict ();，; 
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从 今天 问候 
语 是 “Hello 
world!” 的 观 
测 中 学 习 , 运 
用 概率 推理 
原则 预测 明 
天 的 问候 语 



































在 此 ,我 不 对 使 用 推理 规则 进行 计算 的 方法 做 出 描述 。 上 述 代码 使 用 了 3 条 推理 规 
则 : 链 式 法 则 、 全 概率 公式 和 贝 叶 斯 法 则 。 这 些 规则 将 在 第 9 章 中 详细 解释 。 现 在， 我 
们 指出 这 段 代码 的 两 个 主要 问题 。 
图 ”无 法 定义 建 模 所 用 的 规则 





































































































模型 定义 包含 在 一 个 变量 名 与 双 精 度 值 的 列表 中 。 当 我 在 本 节 的 开始 


表 1-1 中 展示 数值 时 ， 模 型 有 许多 乡 





































































































4 构 ， 尽 管 不 算 很 直观 ， 但 也 算 相 对 容易 理解 。 变 量 








T 
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第 1 章 概率 编程 简介 


定义 的 列表 蓝 无 结构 。 变 量 











时 的 含义 埋藏 在 变量 名 之 中 ， 这 一 定 不 是 好 主意 。 因 此 ， 以 这 








种 方式 记 下 模型 很 难 ， 该 过 程 也 很 容易 出 错 。 以 后 阅读 理解 和 维护 这 些 代 码 也 很 困难 。 











可 能 需 
El 











如 果 需 要 修改 模型 (例如 ， 问 候 语 还 取决 于 您 睡 得 好 不 好 )， 就 可 
大 一 部 分 。 

回 ”自行 编码 推理 规则 很 难 且 容易 出 错 

上 述 代 码 的 第 二 个 主要 问题 是 使 用 概率 推理 规则 回 



































答 查 询 。 














要 重 写 模型 的 很 




















您 ， 发 须 有 关于 推 里 规则 








的 详细 知识 才能 编写 这 段 代码 。 即 使 有 了 这 种 知识 ， 正 确 编写 代码 也 很 难 。 测 试 答案 是 
























































a 让 S ps 
否 正 确 也 很 困难 ， 而 这 只 是 一 个 极其 简单 的 例子 。 对 于 复杂 的 应 用 ， 以 此 方式 创建 推理 
> 台 已 SS 
尺码 可 能 不 现实 。 
下 面 看 看 Scala/Figaro 代码 。 
程序 清单 1-2 用 Figaro 实现 的 Hello World 程序 
import com.cra.figaro.language. {Flip, Select} 
; 导入 Figaro 
Import com.cra.figaro.library.compound.If 
import com.cra.figaro.algorithm.factored.VariableElimination 结构 
object HelloWorld { 
val sunnyToday = Flip(0.2) 
val greetingToday = If (sunnyToday, 
Select (0.6 -> "Hello, world!", 0.4 -> "Howdy, universe!"), 
Select (0.2 -> "Hello, world!", 0.8 -> "Oh no, not again")) 
val sunnyTomorrow = If(sunnyToday, Flip(0.8), Flip(0.05)) 定义 模型 
val greetingTomorrow = If(sunnyTomorrow, 
Select (0.6 -> "Hello, world!", 0.4 -> "Howdy, universe!"), 
Select (0.2 -> "Hello, world!", 0.8 -> "Oh no, not again")) 
def predict() { 
val result = VariableElimination.probability(greetingToday, 
"Hello, world!") > SS 
用 推理 算法 
printin("Today’s greeting is \"Hello, world!\" "+ yj A 
ee ee 预测 今天 的 
with probability pr = Sc -人 问候 语 
} 
def infer() { 根据 今天 的 问 
候 语 是 “Hello 
greetingToday.observe ("Hello, world!") Se 
val result = VariableElimination.probability(sunnyToday, true) world!” 这 一 事 
println("If today's greeting is \"Hello, world!\", today’s " + 实 ， 使 用 推理 
"weather is sunny with probability " + result + ".") 算法 推理 今天 


的 天 气 





1.4 


1.4 


小 结 


def learnAndPredict() { 
greetingToday.observe ("Hello, world!") 
val result = VariableElimination.probability(greetingTomorrow, 
"Hello, world!") 
println("If today's greeting is \"Hello, world!\", "™ + 
"tomorrow's greeting will be \"Hello, world!\" " 十 
"with probability " + result + ".") 


} 


def main(args: Array[String]) { 

predict () 
执行 所 有 任务 
的 主 方法 





infer () 
learnAndPredict () 
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从 对 今天 的 问 
候 语 是 “Hello， 
world!” 这 一 观 
察 中 学 习 ， 用 
推理 算法 预测 
明天 的 问候 语 








我 将 等 到 下 一 章 才 详细 解释 这 段 代码 。 现 在 ,我 希望 指出 , 它 解决 了 Java 代码 的 两 
个 问题 。 首 先 ， 模 型 定义 准确 描述 了 对 应 于 表 1-1 的 模型 结构 。 您 定义 了 4 个 变量 : 











sunnyToday、greetingToday、sunnyTomorrow 和 greetingTomorrow， 它 们 都 对 应 于 表 1-1。 


例如 ，greetingToday 的 定义 如 下 : 


val greetingToday = If (sunnyToday, 
Select (0.6 -> "Hello, world!", 0.4 -> "Howdy, universe!"), 
Select (0.2 -> "Hello, world!", 0.8 -> "Oh no, not again")) 





这 段 代 码 说 明 ， 如 果 今 天 是 晴天 ， 则 问候 语 为 “Hello，world!” 的 概率 为 0.6,“Howdy, 
universe!” 的 概率 是 0.4。 如 果 今 天 不 是 晴天 ， 问 候 语 为 “Hello，world!” 的 概率 为 0.2， 


“Oh no, not again” 的 概率 为 0.8。 这 正 是 表 1-1 对 今天 问候 语 的 规定 。 
苗 述 了 模型 , 构造、 阅读 和 名 
变量 )， 可 以 用 模块 化 的 方式 完成 。 










































































大 



































法 〈 在 本 例 中 是 一 个 变量 消除 算法 ，Figaro 中 可 | 
获得 所 需 的 概率 。 现 在 ， 
推理 规则 。 组 织 和 应 用 推理 规则 的 艰苦 
也 可 以 运行 该 算法 ， 完 成 所 有 推理 。 


















































作 由 





该 算法 负责 。 





















































小 结 








图 ”做 出 判断 需要 知识 + 人 逻辑 。 
图 ”在 概率 推理 中 ， 概 率 模型 表示 知识 ， 推 理 算法 编码 逻辑 。 















































为 代码 明确 地 


矣 护 就 容易 得 多 了 。 如 果 需 要 更 改 模 型 (例如 ,添加 sleepQuality 


现在 ， 我 们 来 看 看 执行 推理 任务 的 代码 ， 它 没有 包含 任何 计算 ， 而 是 实例 化 一 个 算 
的 几 个 算法 之 一 )， 并 查询 该 算法 以 
按照 第 3 部 分 中 的 说 明 ,， 这 个 算法 基于 和 Java 程序 相同 的 概率 
即使 对 于 大 而 复杂 的 模型 ， 




















全 


























量 ”概率 推理 可 用 于 预测 未 来 事件 ， 推 断 过 去 事件 的 原因 

















， 从 过 去 事件 








学 习 以 改 


24 


1.5 


善 预测 。 








加 ”概率 编程 是 概率 推理 


























， 其 中 的 概率 模型 用 编程 语言 表达 。 











概率 编程 系统 使 用 

















图 灵 完 备 编程 语言 表示 模型 ， 并 提供 使 用 模型 的 推理 算法 。 
































转 ”Figaro 是 用 Scala 实现 的 概率 编程 系统 , Scala 提供 了 函数 和 面向 对 象 编程 风格 。 


练习 





部 分 练习 的 解答 可 在 www.manning.com/books/practical-probabilistic-programming 上 


找到 。 




















1. 想象 一 下 ， 您 打算 用 一 个 概率 推理 系统 推理 扑克 牌 型 的 结 

a) 您 可 以 在 模型 中 编码 哪 种 一 般 知识 ? 

b) 描述 如 何 使 用 系统 预测 未 来 。 什 么 是 证 据 ? 什么 是 查询 ? 

c) 描述 如 何 使 用 系统 推断 当前 观测 结果 的 根源 。 什 么 是 证 据 ?什么 是 查询 ? 















































d) 描述 推断 出 的 过 去 根源 如 何 帮助 您 预测 未 来 。 
2. 在 Hello World 示例 中 ， 根 据 如 下 表格 改变 今天 天 气 是 否 晴朗 的 概率 。 程 序 输出 





































































































有 何 变化 ? 为 什么 您 认为 将 出 现 这 样 的 变化 ? 
今天 的 天 气 
博朗 0.9 
不 晴朗 0.1 

















3. 修改 Hello World 示例 ， 添 加 一 个 新 问候 :“Hi，galaxy!”。 提供 这 个 问候 语 在 天 








气 晴朗 时 的 概率 ， 降 低 其 他 问候 语 的 概率 使 总 概率 保持 为 1。 还 要 修改 程序 ， 使 所 有 查 

















询 打 印 “Hi，galaxy!” 的 概率 而 不 是 “Hello, world!” 的 概率 。 用 Java 和 Figaro 版 本 的 
Hello World 程序 进行 这 一 修改 。 比 较 两 种 语言 的 过 程 。 





第 2 章 Figaro 快速 教程 





本 章 介绍 如 下 内 容 : 

四 ”模型 创建 、 证 据 陈述 、 推 理 运行 和 查询 的 回答 
四 ”理解 模型 基本 构件 

图 ”从 这 些 构件 构造 复杂 模型 














现在 ， 您 已 经 了 解 了 概率 编程 的 含义 ， 可 以 详细 了 解 Figaro， 以 便 编写 自己 的 简单 









































4 





程序 ， 








j 它 们 回答 查询 。 本 章 的 目标 是 尽快 介绍 Figaro 的 最 重要 概念 。 后 面 的 章节 详 





























op 
































解释 模型 的 含义 以 及 对 它们 的 理解 。 让 我 们 开始 吧 。 





2.1 Figaro 简介 

















首先 ， 我 们 对 Figaro 做 一 个 概述 。 在 第 1 章 中 已 经 介绍 过 ，Figaro 是 一 种 概率 





理 





























系统 。 在 查看 其 组 件 之 前 ， 我 们 先 回顾 概率 推理 系统 的 一 般 组 件 ， 使 您 可 以 和 Figaro 比 









































较 。 图 2-1 重 现 了 第 1 章 中 介绍 的 概率 推理 系统 要 点 。 提 醒 一 下 ， 关 于 情况 的 一 般 和 



























































1 识 
























































在 概率 模型 
答 关 于 情况 的 查询 。 





























编码 ， 而 证 据 提供 关于 特定 情况 的 具体 信息 。 推 理 算 法 使 用 模型 和 证 据 


配 
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证 据 包含 关于 某 种 。 
情况 的 具体 信息 ”一 一 一 一» 证 据 一 | 











概率 推理 系统 
查询 表达 帮助 您 
做 出 决策 的 事物 “一 一 > 查询 一 =| hi 


图 2-1 概率 推理 要 点 回顾 


概率 模型 表达 关于 
一 某 种 情况 的 一 般 知 识 


一 答案 一 推理 算法 根据 证 据 
对 查询 的 回答 以 不 一 一 使 用 模型 回答 查询 


同 结果 的 概率 表达 











现在 我 们 来 看 看 Figaro。 图 2-2 展示 了 Figaro 的 关键 概念 。 可 以 看 到 , 该 图 和 图 2-1 
有 着 相同 的 组 件 。Figaro 模型 用 来 表达 一 般 知 识 。 您 以 证 据 的 形式 提供 关于 某 种 情况 的 
k 体 知识 。 查 询 告诉 系统 您 所 感 兴趣 的 发 现 。Figaro 推理 算法 取得 证 据 并 用 模型 提供 查 
询 的 答案 。 




































































Figaro 模 型 由 一 组 数据 
结构 ( 称 作 元 素 ) 组 成 







证 据 由 观测 值 、 条 件 和 
元 素 值 上 的 约束 组 成 


原子 元 素 是 基本 构件 。 
国有 合 元 素 将 简单 元 素 连接 到 一 起 。 
应 用 和 链接 是 两 类 重要 的 复合 元 素 


Figaro 的 算法 计算 关于 目标 元 素 的 信息 。 
_ 一 通常， 您 实例 化 一 个 算法 ， 运 行 之 后 进行 清理 。 
a Figaro 为 您 提供 执行 所 有 这 些 步 又 的 方法 





Figaro 推 理 算法 


答 


各 种 取 值 的 概率 
查询 说 明 您 所 感 最 可 能 取 值 


兴趣 的 目标 元 素 


A 


/ 
/ 


答案 提供 关于 这 些 
目标 元 素 的 信息 


图 2-2 Figaro 的 关键 概念 及 其 组 合 




















2.2 人 


es 
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现在 , 我 们 来 观察 每 一 个 组 件 。Figaro 的 大 部 分 接口 提供 了 指定 Figaro 模型 的 方法 。 
Figaro 模型 由 一 组 称 为 元 素 的 数据 结构 组 成 。 每 个 元 素 代 表 在 您 的 情况 中 可 以 取 一 组 值 
之 一 的 变量 。 元 素 编码 定义 不 同 值 概 率 的 信息 。 您 将 在 2.2.1 小 节 中 Hello World 示例 的 
上 下 文中 看 到 元 素 的 基本 定义 。 

元 素 主 要 有 两 类 : 原子 元 素 和 复合 元 素 。 您 可 以 将 Figaro 视 为 构建 模型 的 构造 工具 
箱 。 原 子 元 素 是 基本 构件 ， 表 示 不 依赖 于 其 他 元 素 的 基本 概率 变量 。2.3 小 节 讨 论 原 子 
元 素 并 提供 各 种 示例 。 复 合 元 素 是 连接 器 ， 它 们 依赖 于 一 个 或 者 多 个 元 素 以 构成 更 复杂 
的 元 素 。 您 将 在 2.4 小 节 中 学 习 关 于 复合 元 素 的 知识 。Figaro 提供 种 种 不 同 的 复合 元 素 ， 
其 中 两 种 特别 重要 一 一 Apply (应 用 ) 和 Chain 〈 链 )， 您 将 在 2.5 小 节 中 学 习 如 何 使 用 
它们 。 

接 下 来 的 是 证 据 。Figaro 提供 了 说 明证 据 的 丰富 机 制 。 大 部 分 时 候 ， 您 将 使 用 证 据 
的 最 简单 形式 一 一 观测 值 。 观 测 值 指定 已 知 有 茶 个 特定 值 的 元 素 。 您 将 在 2.2.3 小 节 学 
习 如 何 指定 观测 值 。 有 时 候 ， 您 需要 更 通用 的 证 据说 明 方 法 。 为 此 Figaro 提供 了 条 件 和 
约束 。 条 件 和 约束 及 其 用 法 在 2.6 小 节 中 描述 。 

Figaro 的 查询 通过 指明 目标 元 素 和 您 想 知 道 的 有 关 情 况 指 明 。 您 使 用 某 种 算法 ， 按 
照 证 据 找 出 有 关 目 标 元 素 的 信息 。 通 常 ， 您 必须 实例 化 某 种 算法 ， 运 行 并 在 之 后 清理 。 
我 已 经 提供 了 使 用 默认 设置 执行 所 有 步骤 的 简单 方法 。 在 运行 算法 之 后 ， 您 可 以 获得 碍 
询 的 答案 。 这 些 算 法 最 常 采取 目标 元 素 的 各 种 取 值 概率 。 有 时 候 , 它们 没有 告诉 您 概率 ， 
而 是 得 出 每 个 目标 元 素 的 最 可 能 取 值 。 对 于 每 个 目标 元 素 , 答案 告诉 您 最 高 概率 的 取 值 。 
您 将 在 2.2.2 小 节 中 看 到 如 何 指定 查询 、 运 行 算 法 和 获得 答案 。 
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您 已 经 概要 了 解 了 Figaro 概念 ， 接 下 来 看 看 它们 是 如 何 融 合 在 一 起 的 。 您 将 回顾 第 
1 章 的 Hello World 示例 ， 特 别 注 意图 2-2 中 的 所 有 概念 是 如 何 出 现在 这 个 例子 中 的 。 您 
将 关注 如 何 从 原子 和 复合 元 素 中 构建 模型 ， 观 测 证 据 ， 提 出 查询 ， 运 行 推理 算法 ， 得 到 
答案 。 

本 章 的 代码 可 以 两 种 方式 运行 。 一 种 是 使 用 Scala 控制 台 ， 逐 行 输入 语句 并 获得 即 
时 响应 。 为 此 ， 进 入 本 书 项 目 根 目录 PracticalProbProg/examples 并 输入 sbt console， 将 
会 看 到 Scala 提示 符 。 查看 响应 。 
第 二 种 方式 是 通常 的 方法 : 编写 一 个 包含 main 方法 的 程序 ， 该 方法 包含 想 要 执行 
的 代码 。 在 本 章 ! a a 只 提供 与 Figaro 相关 的 
代码 。 我 将 确保 指出 您 需要 导入 的 内 容 及 将 其 导入 的 位 置 。 
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2.2.1 构建 第 一 个 模型 


首先 , 您 将 构建 最 简单 的 Figaro 模型 。 这 个 模型 包含 一 个 原子 元 素 。 构建 模型 之 前 ， 
必须 导入 必要 的 Figaro 结构 : 


import com.cra.figaro.language._ 














上 述 语句 导入 com.cra.figaro.language 包 中 的 所 有 类 , 该 包 包含 最 基本 的 Figaro 结构。 
这 些 类 中 有 一 个 称 为 Fip。 可 以 用 Flip 构建 一 个 简单 模型 : 


val sunnyToday = Flip(0.2) 























图 2-3 解释 了 这 一 行 代码 。 搞 清楚 哪 一 部 分 是 Scala， 哪 一 部 分 是 Figaro， 是 很 重要 
的 .在 这 行 代 码 中 ,创建 了 一 个 名 为 sunnyToday 的 变量 , 并 赋值 Flip(0.2)。Scala 值 Flip(0.2) 
是 一 个 Figaro 元 素 ， 表 示 true 值 概率 为 0.2、false 值 概率 为 0.8 的 一 个 随机 过 程 。 元 素 
是 表示 随机 产生 一 个 值 的 过 程 的 数据 结构 。 随 机 过 程 可 能 产生 任意 数量 的 结果 。 每 个 可 
能 结果 被 称 为 过 程 的 一 个 值 。 因 此 ，Flip(0.2) 是 可 能 取 值 为 布尔 值 true 及 false 的 元 素 。 
总 结 起 来 就 是 ， 您 有 了 一 个 包含 Scala 值 的 Scala 变量 。 该 Scala 值 是 Figaro 元 素 ， 它 包 
含 表 示 过 程 不 同 结果 的 任意 个 可 能 取 值 。 
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Scala 
一 sunnyToday Figaro 
变量 一 一 | 
| 元 素 
一 Flip(0.2) <4— 
值 一 
ya ~ 一 可 能 值 


false 4 











图 2-3 ”Scala 变量 与 值 以 及 Figaro 元 素 与 可 能 值 之 间 的 关系 





























在 Scala 中 ， 类 型 可 以 由 男 外 一 种 描述 其 内 容 的 类 型 参数 化 。 您 可 能 从 Java 泛 型 中 
己 经 熟悉 了 这 个 概念 ,例如 ,在 Java 中 可 以 得 到 一 个 整数 或 者 字符 串 的 列表 。 所 有 Figaro 
元 素 都 是 Element 类 的 实例 。Element 类 由 元 素 可 能 取 值 的 类 型 参数 化 。 这 种 类 型 称 作 
元 素 的 值 类 型 。 因 为 Flip(0.2) 可 以 取 布 尔 值 ，Flip(0.2) 的 值 类 型 为 Boolean。 这 一 事实 的 
标记 方法 是 : Flip(0.2) 是 Element[Boolean] 的 一 个 实例 。 


关键 定义 

元 素 一 一 代表 一 个 随机 过 程 的 Figaro 数据 结构 。 
值 一 一 随机 过 程 的 一 个 可 能 结果 。 

值 类 型 一 一 代表 元 素 可 能 取 值 的 Scala 类 型 。 
关于 这 个 简单 模型 有 许多 值得 说 明 的 地 方 。 幸 运 的 是 ， 您 已 经 学 到 的 知识 适用 于 所 有 













































































2.2.2 


所 以 精确 
算法 通常 提供 与 准确 答案 大 致 相同 的 答案 。 本 章 使 用 


大 部 


Brint Ln 





















































































































































述 语 句 导 入 所 谓 包 
也 就 是 说 ， 它 可 以 准确 
的 算 y 
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Figaro 模型 。Figaro 模型 通过 取得 和 组 合 简单 的 Figaro 元 素 (构件 ) 创建 更 复杂 的 元 素 和 相 
关 元 素 集合 而 创建 。 您 刚刚 学 到 的 元 素 、 值 和 值 类 型 的 定义 是 Figaro 中 最 为 重要 的 定义 。 
在 继续 构建 更 复杂 的 模型 之 前 ， 我 们 先 来 看 看 如 何 用 这 个 简单 模型 进行 推 
运行 推理 和 回答 查询 
您 已 经 构建 了 一 个 简单 模型 。 我 们 运行 推理 ， 查 询 sunnyToday 为 true 的 概率 。 首 
先 ， 需 要 导入 将 要 使 用 的 推理 算法 : 


import com.cra.figaro.algorithm.factored.VariableElimination 








“变量 消除 ”( variable elimination ) 算法 ， 这 是 一 种 精确 的 推 
地 计算 您 的 模型 和 证 据 
去 有 时 候 需 要 花费 很 长 时 间 ， 或 者 耗 尽 内 存 。 

















隐 含 的 概率 。 概 率 推理 很 复杂 ， 
Figaro 提供 近似 算法 ， 这 种 
除 算法 在 















































单 的 模型 ， 所 以 变量 消 








简 


























分 情况 下 可 行 。 
现在 ，Figaro 提供 一 
的 代码 : 

















个 简单 命令 以 指定 碍 











eElimination.probabil 


您 的 模型 只 


(Variabl 


本 印 输出 0.2。 








上 述 命令 


变量 消除 算法 正确 
详细 说 来 , 您 刚刚 看 到 的 命令 完成 好 几 件 
告诉 实例 查询 目标 是 sannyToday。 然 后 运 
这 条 命令 还 负责 执行 完毕 的 清理 ， 
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2.2.3 构建 模型 和 生成 观测 值 





始 构建 一 个 更 有 趣 的 模型 。 


日 








现在 ， 我们 开 





Th oie 为 true i 0.2。 


云 行 算法 并 返回 
释放 算法 所 用 的 全 











运行 算法 并 获得 答案 。 可 以 编写 如 下 





询 、 


ity(sunnyToday, true)) 




















元 素 Flip(0.2)， 结 果 为 true 的 概率 为 0.2。 








工作 : 首先 创建 变量 消除 算法 的 一 个 实例 ， 
sunnyToday 值 为 true 的 概率 。 


E 何 资源 。 









































您 需要 一 个 Figaro 结 





Es 

















入 它 。 还 需要 一 个 名 为 Select 的 结构 ， 但 


import com.cra.figaro.library.compound.If 


我 们 使 用 If 和 Select 构建 更 复杂 的 元 素 ; 


val greetingToday = If (sunnyToday, 
Select (0.6 -> "Hello, world!", 
Select (0.2 -> "Hello, 


对 此 的 思乡 








Qi4. ,=> 


WOELGL TT O58 > 




















是 这 


"Howdy, 
"oh Nor 


方式 是 元 素 代表 一 个 随机 过 程 。 





已 经 随 着 com.cra.figaro. Re 





村 





universe!"), 
not again")) 


在 本 例 中 ， 名 为 greetingToday 的 元 素 代 




















表 着 这 样 的 过 程 : 首先 检查 sunnyToday 的 值 ， 





























如 果 为 tue， 选 择 “Hello，world!” 的 概率 
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为 0.6,“Howdy, universe!” 的 概率 为 0.4。 如 果 sunnyToday 的 值 为 false, 选择 “Hello, world!” 
的 概率 为 0.2,“Oh no, not again” 的 概率 为 0.8。greetingToday 是 一 个 复合 元 素 ， 因 为 它 
由 3 个 元 素 构建 而 成 。 由 于 greetingToday 的 可 能 取 值 为 字符 串 ， 所 以 它 是 Element[String]。 

现在 ， 假 定 您 已 经 看 到 今天 的 问候 语 是 “Hello, world!”， 您 可 以 使 用 一 个 观测 值 说 
明 这 一 证 据 : 


greetingToday.observe ("Hello, world!") 


接 下 来 ， 您 可 以 根据 问候 语 是 “Hello, world!” 算 出 今天 是 晴天 的 概率 : 


println(VariableElimination.probability(sunnyToday, true)) 


这 条 命令 打印 输出 0.4285714285714285。 注 意 ， 结 果 明 显 高 于 前 一 个 答案 (0.2)。 
这 是 因为 问候 语 是 “Hello，world!” 时 ， 今 天 是 晴天 的 可 能 性 高 于 其 他 情况 ， 所 以 证 据 
支持 今天 是 晴天 。 这 一 推理 是 贝 叶 斯 法 则 的 简单 实例 ， 第 9 章 将 介绍 这 一 法 则 。 

您 打算 扩展 该 模型 ， 用 不 同 证 据 运 行 更 多 查询 ， 所 以 应 该 移 除 变量 greetingToday 
的 观测 值 。 用 如 下 命令 可 以 完成 : 


greetingToday.unobserve() 
现在 ， 如 果 发 出 如 下 查询 : 
println(VariableElimination.probability(sunnyToday, true)) 


您 将 得 到 和 指定 证 据 之 前 一 样 的 答案 0.2。 
在 本 节 的 最 后 ， 我 们 进一步 细 化 模型 : 


val sunnyTomorrow = If(sunnyToday, Flip(0.8), Flip(0.05)) 
























































































































































val greetingTomorrow = If(sunnyTomorrow, 
Select (0.6 -> "Hello, world!", 0.4 -> "Howdy, universe!"), 
Select (0.2 -> "Hello, world!", 0.8 -> "Oh no, not again")) 


您 可 以 计算 在 有 无 关于 今天 问候 语 的 证 据 情 况 下 ， 明 天 的 问候 语 为 “Hello, world!” 
的 概率 : 


println(VariableElimination.probabilityl(greetingTomorrow, "Hello, world!")) 
// prints 0.27999999999999997 




















greetingToday.observe ("Hello, world!") 
println(VariableElimination.probabilityl(greetingTomorrow, "Hello, world!")) 
// prints 0.3485714285714286 


可 以 看 到 , 在 观察 到 今天 的 问候 语 是 “Hello, world!” 时 , 明天 的 问候 语 是 “Hello, world!” 
的 概率 增 大 ， 为 什么 ”因为 今天 的 问候 语 是 “Hello, world!” 今天 就 更 有 可 能 是 晴天 ， 明 天 
是 晴天 的 可 能 性 也 就 更 大 ， 最 终 使 明天 的 问候 语 更 可 能 是 “Hello, world!”。 正 如 在 第 1 章 ， 
所 看 到 的 ， 这 是 推断 过 去 更 好 预测 未 来 的 一 个 例子 ，Figaro 负责 所 有 的 计算 
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2.2.4 理解 模型 的 构建 方法 


现在 ， 您 已 经 看 到 了 创建 模型 、 指 定 证 据 和 查询 、 运 行 推理 得 到 答案 的 所 有 步 又， 
接 下 来 我 们 更 仔细 地 观察 Hello World 模型 ， 理 解 如 何 从 构件 (原子 元 素 ) 和 连接 器 〈 复 
合 元 素 ) 构建 它 。 

图 2-4 是 模型 的 图 形 描述 。 该 图 首先 重 现 了 模型 定义 ， 每 个 Scala 变量 在 一 个 单独 的 方 
























































al sunnyToday = Flip(0.2 | 


val day = If (sunnyToday, 
S "Hello, world!",0.4->"Howdy, universe!"), 





>"Hello, world!",0.8->"Oh no, not again")) 
et tt eg 
| val greetingTomorrow = If(sunnyTomorrow/ | 
| Select (0.6->"Hello, world!",0.4->"Howdy, universe!"), 
| Select (0.2->"Hello, world!",0.8->"Oh no, not again")) 
本 Sg Ne Se sb 








| saanyroday: Flip(0.2) 





Select (0. ).6->"Hello, world!", 
0.4->"Howdy, universe!") 







Select (0.2->"Hello, worid!", 
0.8->"Oh no, not again”" 


greetingToday: If( ，，) 






Select(0.6->"Hello, world!", 
0.4->"Howdy, universe!™") 


Select (0.2->"Hello, world!", 
0.8->"Oh no, not again") 


greetingTomorrow: If( ,，，, ) 


ee | | 


| 


图 2-4 ”以 图 的 形式 显示 的 Hello World 模型 结构 。 图 中 的 每 个 节点 是 一 个 元 素 。 图 中 的 边 显示 何 时 某 个 
元 素 被 另 pA 
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框 中 。 在 下 半 部 分 中 ， 每 个 节点 表示 模型 中 的 对 应 元 素 ， 同 样 在 单独 的 方 框 中 显示 。 有 些 
元 素 本 身 就 是 Scala 变量 值 。 例 如 ，Scala 变量 sunnyToday 的 值 是 Flip(0.2) 元 素 。 如 果 元 素 
是 Scala 变量 值 ， 图 上 显示 变量 名 称 和 元 素 。 该 模型 还 包含 了 一 些 不 是 特定 Scala 变量 值 ， 
但 仍 出 现在 模型 中 的 元 素 。 例 如 ， 因 为 sunnyTomorrow 的 定义 是 IfsunnyToday，Flip(0.8)， 
Flip(0.05))，Flip(0.8) 和 Flip(0.05) 也 是 模型 的 一 部 分 ， 所 以 它们 显示 为 图 中 的 节点 。 

该 图 包含 了 元 素 之 间 的 边 。 例如， 从 Flip(0.8) 到 取 sunnyTomorrow 值 的 开元 素 之 间 
有 一 条 边 ， 表 明 下 元 素 使 用 Flip(0.8) 元 素 。 一 般 来 说 ， 如 果 第 二 个 元 素 的 定义 中 使 用 了 
第 一 个 元 素 ， 则 两 者 之 间 存 在 一 条 边 。 因 为 只 有 复合 元 素 是 由 其 他 元 素 构 建 而 成 的 ， 所 
以 只 有 复合 元 素 可 能 成 为 边 的 终点 。 



























































































































































































































































2.2.5 理解 重复 的 元 素 : 何 时 相同 ， 何 时 不 同 














需要 注意 的 一 点 是 ，Select(0.6 -> "Hello, world!", 0.4 -> "Howdy, universe!") 在 图 ! 
出 现 了 两 次 ，Select(0.2 -> "Hello, world!", 0.8 -> "Oh no, not again") 也 是 如 此 。 这 是 因 
为 代码 中 定义 出 现 了 两 次 ， 一 次 用 于 greetingToday， 男 一 次 用 于 greetingTomorrow。 
尽管 定义 相同 ， 但 是 这 是 两 个 不 同 的 元 素 。 它 们 在 Figaro 模型 定义 的 随机 过 程 的 同一 
次 执行 中 可 能 取 不 同 的 值 。 例 如 ， 该 元 素 的 第 一 个 实例 可 能 取 值 “Hello，world!”， 而 
第 二 个 实例 可 能 取 值 “Howdy,，universe!”。 这 是 有 意义 的 ， 因 为 第 一 个 元 素 实例 用 于 
定义 greetingToday， 第 二 个 则 用 于 定义 greetingTomorrow。 今 天 和 明天 的 问候 语 很 可 
能 不 一 样 。 

这 和 常规 编程 类 似 ， 想 象 一 下 您 有 一 个 Greeting 类 和 如 下 代码 : 


class Greeting { 
var string = "Hello, world!" 
} 
val greetingToday = new Greeting 






































































































































val greetingTomorrow = new Greeting 
greetingTomorrow.string = "Howdy, universe!" 


尽管 定义 完全 相同 ，greetingToday 和 greetingTomorrow 是 Greeting 类 的 两 个 不 同 
实例 。 因 此 ，greetingTomorrow.string 和 greetingToday.string 可 能 取 不 同 值 ， 后 者 仍然 等 
于 “Hello，world!”。 同 样 ，Figaro 构造 函数 (如 Select) 创建 对 应 元 素 类 的 新 实例 。 所 
以 greetingToday 和 greetingTomorrow 是 Select 元 素 的 两 个 不 同 实例 , 因此 在 一 次 运行 ! 
可 能 取 不 同 的 值 。 

另 一 方面 , 注意 Scala 变量 sunnyToday 也 出 现 了 两 次 , 一 次 在 greetingToday 的 定义 
中 ， 另 一 次 在 sunnyTomorrow 中 。 但 是 本 身 是 sunnyToday 值 的 元 素 在 图 中 仅 出 现 一 次 。 
为 什么 ?因为 sunnyToday 是 一 个 Scala 变量 ， 而 不 是 Figaro 元 素 定 义 。 当 Scala 变量 在 
一 段 代码 中 出 现 超 过 一 次 时 ， 它 是 相同 的 变量 ， 所 以 使 用 相同 的 值 。 在 我 们 的 模型 中 ， 
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光 


这 是 有 意义 的 ; 它 表 示 同 一 天 的 天 气 ， 用 于 greetingToday 和 sunnyTomorrow 的 定义 中 ， 
所 以 在 模型 的 任何 随机 执行 中 都 取 相 同 的 值 。 

常规 代码 中 也 会 发 生 相 同 的 事情 。 如 果 编 写 如 下 代码 : 
val greetingToday = new Greeting 


Val anotherGreetingToday = greetingToday 
anotherGreetingToday.string = "Howdy, universe!" 





















































anotherGreetingToday 和 greetingToday 是 相同 的 Scala 变量 ,所 以 运行 上 述 代码 之 后 ， 
greetingToday 的 值 也 是 “Howdy, universe!”， 同样， 如 果 同 一 个 Scala 变量 代表 程序 中 出 
现 多 次 的 一 个 元 素 ， 它 在 每 次 运行 中 也 取 相 同 的 值 。 
里 解 这 一 点 对 于 了 解 Figaro 模型 的 构建 方式 是 必 不 可 少 的 , 所 以 我 建议 反复 阅读 本 
节 以 确保 理解 .此 时 , 您 应 该 已 经 概要 了 解 所 有 的 Figaro 主要 概念 以 及 它们 的 组 合 方式 。 
在 下 面 几 节 中 ， 您 将 更 详细 地 研究 其 中 一 些 概念 ， 下 一 节 首 先 介 绍 原子 元 素 。 










































































































































































使 用 基本 构件 : 原子 元 素 


现在 正 是 积累 Figaro 元 素 知识 的 时 机 。 我 将 首先 介绍 模型 的 基本 构件 一 一 原子 元 素 。 
原子 这 一 名 称 意味 着 ， 它 们 不 依赖 于 任何 其 他 元 素 ， 完 全 是 独立 的 。 在 此 我 不 提供 完整 
的 原子 元 素 列表 ， 只 介绍 最 常见 的 例子 。 

原子 元 素 根据 值 的 类 型 分 为 离散 元 素 和 连续 元 素 。 离 散 原 子 元 素 取 Boolean 和 
Integer 等 类 型 的 值 ， 而 连续 原子 元 素 通常 使 用 Double 类 型 的 值 。 从 技术 上 说 ， 离 散 
意味 着 值 之 间 有 很 清晰 的 分 隔 。 例 如 ， 整 数 1 和 2 有 很 清晰 的 分 隔 ， 其 中 没有 任何 
整数 。 而 连续 意味 着 值 处 于 一 个 没有 分 隔 的 连续 域 中 ， 如 实数 。 在 任何 两 个 实数 之 
间 都 有 更 多 的 实数 。 离 散 和 连续 元 素 之 间 的 差异 造成 了 概率 定义 的 差异 ， 第 4 章 中 
将 做 介绍 。 











































































































































































































警告 : 有 些 人 认为 离散 就 意味 着 有 限 。 这 是 错误 的 。 例如， 整数 有 无 穷 多 个 ， 但 是 它们 是 清晰 
分 隔 的 ， 所 以 是 离散 值 。 
关键 定义 
原子 元 素 一 一 不 依赖 于 任何 其 他 元 素 的 独立 元 素 。 
合 元 素 一 一 由 其 他 元 素 构成 的 元 素 。 
离散 元 素 一 一 值 类 型 清晰 分 隔 的 元 素 。 
连续 元 素 一 一 值 类 型 没有 分 隔 的 元 素 。 
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2.3.1 离散 原子 元 素 


让 我 们 来 看 一 些 离散 原子 元 素 的 例子 : Flip、Select 和 Binomial。 

















您 已 经 看 到 了 离散 原子 元 素 Flip。Flip 包含 在 com.cra.figaro.language 包 中 ， 该 包 中 
有 许多 最 常用 的 元 素 。 我 建议 始终 在 程序 开始 处 导入 该 包 的 所 有 内 容 。 一 般 来 说 ，Flip 
取 一 个 参数 p， 表 示 元 素 值 为 真 的 概率 。p 应 该 是 0 和 1( 包 含 ) 之 间 的 数值 。 该 元 素 值 为 
假 的 概率 是 1-p。 例 如 : 


import com.cra.figaro.language._ 
val sunnyToday = Flip(0.2) 






















































































println(VariableElimination.probability(sunnyToday, true)) 
// prints 0.2 


println(VariableElimination.probability (sunnyToday, false)) 
// prints 0.8 


Flip(0.2) 的 正式 类 型 是 AtomicFlip， 是 Element[Boolean] 的 子 类 。 这 使 其 区 别 于 后 再 
将 会 看 到 的 CompoundFlip。 

Select 

您 已 经 在 Hello World 程序 中 看 到 了 Select 元 素 。 下 面 是 一 个 例子 : Select(0.6 -> 
"Hello, world!", 0.3 -> "Howdy, universe!", 0.1 -> "Oh no, not again")。 图 2-5 展示 了 这 个 元 
素 的 构成 。 在 圆 括 号 中 是 一 些 子 句 。 每 个 子 句 个 概率 、 一 个 右 箭 头 和 一 个 可 能 结 
组 成 。 子 句 的 数量 是 可 变 的 ， 您 可 以 使 用 任意 个 子 句 。 图 中 有 3 个 子 句 。 因 为 所 有 结 
的 类 型 都 是 String， 所 以 这 个 元 素 是 Element[lString] 。 同 样 ， 其 正式 类 型 是 
AtomicSelect[String] 一 一 Element[String] 的 子 类 。 

很 自然 ，Select 元 素 对 应 于 一 个 过 程 ， 其 中 每 个 可 能 的 结果 按照 对 应 的 概率 而 选择 。 
下 面 是 其 工作 方式 : 


val greeting = Select(0.6 -> "Hello, world!", 0.3 -> "Howdy, universe!", 0.1 









































































































































































































































= "Oh no not again™) 
println(VariableElimination.probability (greeting, "Howdy, universe!")) 
// prints 0.30000000000000004 


概率 | 
-个 右 箭头 匹配 概率 和 结果 
x 了 ~ 了 
Select( 0.6 ->"Hello. world!" ，03 ->"Howdy,universe!" sl -> "Oh no, not again") 


La A _ 


可 能 结果 
图 2-5 ”Select 元 素 结构 





2.3.2 

















2.3 使 用 











注意 ， 在 Select 中 ， 概 率 累 加 
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起 来 不 一 定 等 于 1。 如 果 它们 加 起 来 不 等 于 1， 概 率 








将 被 规格 化 一 一 加 起 来 等 于 1， 同 时 保持 概率 之 间 的 比例 。 在 下 面 的 例子 中 ， 每 个 概率 
都 等 于 前 一 个 例子 中 的 两 倍 ， 因 此 加 总 起 来 等 于 2。 规格 化 之 后 恢复 成 前 一 个 例子 中 的 



































概率 ， 因 此 得 到 相同 的 结果 。 

















val greeting = Select (1.2 -> "Hello, world!", 0.6 -> "Howdy, universe!", 0.2 


-> "Oh no, not again") 


println (VariableElimination.probability (greeting "Howdy, universe!")) 


//prints 0.30000000000000004 


Binomial 

















Binomial 是 一 个 有 用 的 离散 元 素 。 想 象 一 下 一 周 有 7 天 ， 每 天 都 有 一 个 “晴天 ”元 





素 Flip(0.2)。 现 在 您 想 要 一 个 元 素 ， 





























其 值 为 一 周 中 放晴 的 天 数 。 这 可 以 用 元 素 Binomial(7， 























0.2) 实 现 。 这 个 元 素 的 值 是 总 共 尝试 7 次 ， 每 次 尝试 为 true 的 概率 为 0.2 的 情况 下 ， 淮 



































试 结果 为 true 的 次 数 。 可 以 这 样 使 




















日 它 : 





import com.cra.figaro.library.atomic.discrete.Binomial 





val numSunnyDaysInWeek = Binomial 


(7, 0.2) 


println (VariableElimination.probability (numSunnyDaysInWeek, 3)) 


//prints 0.114688 


























一 般 来 说 ，Binomial 取 两 个 参数 :尝试 次 数 和 每 次 尝试 得 出 结果 true 的 概率 。 








Binomial 的 定义 假定 所 有 尝试 是 独 
的 概率 。 








本 节 介 绍 两 个 连续 原子 元 素 的 

















立 的 ， 第 一 次 尝试 为 真 不 会 改变 第 二 次 尝试 得 出 tue 














常见 例子 一 Normal 和 Uniform。 第 4 章 详 细 说 明 连 






































续 元 素 。 连 续 概 率 分 布 与 离散 分 布 





咯 有 不 同 ， 指 定 的 不 是 每 个 值 的 概率 ， 而 是 每 个 值 的 


























概率 密度 ， 概 率 密度 描述 的 是 以 该 值 为 中 心 的 每 个 区 间 的 概率 。 您 仍然 可 以 将 概率 密度 
视 为 和 常规 概率 类 似 的 概念 ， 表 明 某 个 值 与 其 他 值 可 能 性 的 对 比 。 因 为 本 章 是 Figaro 的 

































































教程 ， 第 4 章 解 释 概 率 模型 ， 我 将 把 进一步 的 讨论 推迟 到 那个 时 候 。 请 放心 ， 在 后 面 这 














一 点 将 会 更 加 清晰 。 
Normal 
正 态 分 布 是 您 可 能 熟悉 的 一 种 
































连续 概率 分 布 。 正 态 分 布 还 有 其 他 一 些 名 称 ， 包 括 钟 





形 曲线 和 高 斯 分 布 。 图 2-6 展示 了 正 态 分 布 的 概率 密度 函数 。( 如 果 非 要 吹 毛 求 辛 ， 可 
能 称 之 为 “ 单 变量 正 态 分 布 ”更 为 合适 ， 因 为 它 定义 了 单一 实数 变量 上 的 概率 ， 您 还 
以 在 多 个 变量 上 定义 多 变量 正 态 分 布 ， 但 是 我 们 不 是 那样 的 人 ， 所 以 就 称 之 为 正 态 分 





























布 。) 这 个 函数 有 一 个 均值 一 一 中 心 点 (图 

























































































为 1 )， 以 及 一 个 标准 差 一 一 函数 沿 中心 点 
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分 布 的 程度 (图 中 为 0.5)。 大 约 有 68% 的 情况 下 ， 从 正 态 分 布 生成 一 个 值 将 得 到 与 均值 
相差 一 个 标准 差 的 区 间 内 的 值 。 在 统计 和 概率 推理 中 , 正 态 态 分 布 通 常用 均值 和 方差 描述 ， 
后 者 是 标准 差 的 平方 。 图 中 的 标准 差 为 0.5， 方 差 为 0.25。 因 此 ， 这 个 特定 正 态 分 布 的 
标准 规格 描述 是 Normal (1,0.25)。 













































































Normal (1. 0.25) 












标准 差 标准 差 





ti 


-2 -1.5 -l -0.5 0 0.5 1 1.5 


均值 
图 2-6 正 态 分 布 的 概率 密度 函数 























Figaro 遵循 上 述 约定 。 它 提供 一 个 Normal 元 素 ， 以 均值 和 方差 作为 参数 。 可 以 这 
样 定义 Normal 元 素 : 











import com.cra.figaro.library.atomic.continuous.Normal 


val temperature = Normal (40, 100) 


























均值 为 40， 方差 为 100， 意味 着 标准 差 为 10。 现 在 ,假定 您 想 要 用 这 一 元 素 进行 推 
理 。Figaro 的 变量 消除 算法 只 适用 于 可 能 取 值 个 数 有 限 的 元 素 。 特 别 是 ， 它 不 能 用 于 连 
续 元 素 。 所 以 ， 需 要 一 个 不 同 的 算法 。 您 将 使 用 称 作 重要 性 抽样 的 算法 ， 这 是 一 种 很 适 
合 于 连续 元 素 的 近似 算法 。 算 法 的 运行 方法 如 下 : 




































































import com.cra.figaro.algorithm.sampling.Importance 
def greaterThan50(d: Double) = d > 50 


printiln(Importance.probability (temperature, greaterThan50 _)) 


2.4 
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重要 性 抽样 是 一 种 每 次 产生 不 同 答案 的 随机 算法 ， 这 些 答案 通常 应 该 在 真 值 的 附 
近 。 您 得 到 的 答案 应 该 与 0.1567 接近 ， 但 是 很 有 可 能 得 到 稍 有 不 同 的 答案 。 
注意 ， 这 里 的 查询 和 之 前 略 有 不 同 。 对 于 连续 元 素 ， 取 特定 值 (如 50) 的 概率 通常 为 
0。 原因 是 , 连续 元 素 中 有 无 穷 多 个 没有 分 隔 的 值 。 该 过 程 得 出 50 而 非 50.000000000000001 
或 者 之 间 其 他 值 的 可 能 性 无 限 小 。 所 以 ， 通 常 不 要 向 连续 元 素 发 出 特定 值 概率 的 查询 。 
相反 ， 您 可 以 查询 该 值 落 入 某 个 区 间 的 概率 。 例 子 中 的 查询 是 预测 greaterThan50， 
这 个 预测 以 双 精 度 (Double) 类 型 值 作 为 参数 ， 如 果 参 数 大 于 50 则 返回 true。 预 测 是 一 
个 元 素 值 的 布尔 函数 。 当 您 查询 某 个 元 素 是 否 满足 预测 时 ， 询 问 的 是 将 预测 应 用 到 某 个 
元 素 值 返回 true 的 概率 。 在 这 个 例子 中 ， 您 的 查询 计算 温度 高 于 50 的 概率 。 
Scala 注释 : greaterThan50 之 后 的 下 划 线 告诉 Scala，greaterThan50 是 一 个 传递 给 Importance. 
probability 方法 的 函数 值 。 如 果 没 有 这 个 下 划 线 ，Scala 可 能 认为 您 试图 将 该 函数 应 用 到 
0 参数 上 ， 从 而 出 错 。 有 时 候 ，Scala 可 能 自动 理解 这 一 点 而 无 需 明确 地 提供 下 划 线 。 
但 有 时 候 它 无 法 做 到 ， 而 会 告诉 您 提供 下 划 线 。 
Uniform 
我 们 再 来 介绍 一 个 同样 熟悉 的 连续 元 素 例 子 。Uniform 元 素 取 指定 区 间 中 的 值 ， 区 
间 中 的 每 个 值 可 能 性 相同 。 您 可 以 这 样 创 建 和 使 用 Uniform 元 素 : 







































































































































































































































































































































































import com.cra.figaro.library.atomic.continuous.Uniform 
val temperature = Uniform(10, 70) 
Importance.probability (temperature, greaterThan50 _) 


// prints something like 0.3334 








Uniform 元 素 取 两 个 参数 : 最 小 值 和 最 大 值 。 从 最 小 值 到 最 大 值 的 所 有 值 概 率 密 度 
相同 。 在 前 一 个 例子 中 ， 最 小 值 为 10， 最 大 值 为 70， 所 以 范围 的 大 小 为 60。 您 的 查询 
预测 是 该 值 是 否 在 50 一 70 一 一 区 间 大 小 为 20。 所 以 ， 预 测 的 概率 为 20/60 或 者 13， 可 
以 看 到 ， 重 要 性 抽样 得 到 的 结果 与 此 接近 。 

最 后 说 明 一 下 : 这 个 元 素 的 官方 名 称 是 连续 均匀 分 布 (continuous uniform)。 在 
com.cra.figaro.library.atomic.discrete 包 中 还 可 以 找到 离散 均匀 分 布 。 正如 您 的 预期 , 离散 
均匀 分 布 明确 列 出 一 组 值 ， 其 中 的 每 个 值 出 现 可 能 性 相同 。 

好 了 ， 现 在 您 已 经 了 解 了 构件 ， 下 面 我 们 来 看 看 如 何 组 合 它们 ， 创 建 更 大 的 模型 。 
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使 用 复合 元 素 组 合 原子 元 素 


在 本 节 中 ， 您 将 看 到 一 些 复合 元 素 。 前 面 已 经 说 过 ， 复 合 元 素 是 构建 于 其 他 元 素 之 
上 的 更 为 复杂 的 元 素 。 复合 元 素 的 例子 很 多 , 您 将 首先 考察 两 个 特殊 的 例子 , I 和 Dist， 
然后 了 解 如 何 使 用 大 部 分 原子 元 素 的 复合 版 本 。 
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您 已 经 看 到 了 If 复合 元 素 的 一 个 例子 。 它 由 3 个 元 素 组 成 : 一 个 测试 ， 一 个 then 
子 句 和 一 个 else 子 句 ,下 表示 这 样 的 随机 过 程 : 首先 检查 测试 的 结果 , 如 果 测 试 值 为 true， 
则 生成 then 子 句 的 值 ， 否 则 ， 生 成 else 子 句 的 值 。 图 2-7 展示 了 下 元 素 的 一 个 例子 。If 
取 3 个 参数 ， 第 一 个 参数 是 Element[Boolean]， 例 中 是 sunnyToday 元 素 。 这 个 参数 表示 
测试 。 第 二 个 参数 是 then 子 句 ， 当 测试 元 素 的 值 为 tue， 则 选中 这 个 元 素 。 如 果 测 试 元 
素 值 为 false， 则 选择 第 三 个 参数 一 一 else 子 句 。then 和 else 子 句 必须 有 相同 的 值 类 型 ， 
这 将 成 为 下 元 素 的 值 类 型 。 


















































































































































一 测试 
If(sunnyToday, 4— 一 then 子 句 
Select(0.6-> "Hello, world!", 0.4-> "Howdy, universe!l”), ¢«— _ else 子 句 


Select(0.2-> "Hello, world!", 0.8-> "Oh no, not again")) < ee 


2-7 “lf 元 素 结构 





时 




















下 面 是 开元 素 的 执行 情况 : 


val sunnyToday = Flip(0.2) 
Val greetingToday = If (sunnyToday, 

Select (0.6 -> "Hello, world!", 0.4 -> "Howdy, universe!"), 

Select (0.2 -> "Hello, world!", 0.8 -> "Oh no, not again") ) 
println (VariableElimination.probability (greetingToday, "Hello world!")) 
// prints 0.27999999999999997 


上 述 代码 打印 输出 0.28 (在 舍 入 误差 范围 内 ) 是 因为 then 子 句 被 选中 的 概率 为 0.2 
( 当 sunnyToday 为 true)， 而 这 种 情况 下 “Hello，world!” 出 现 的 概率 为 0.6。 同 时 ，else 
子 句 被 选中 的 概率 为 0.8， 山 对 “Hello, world!” 出 现 的 概率 为 0.2。 服 ,“Hello, world!” 
出 现 的 总 概率 为 (0.2 x 0.6) + (0.8 x 0.2) = 0.28。 您 可 以 通过 明确 评估 两 种 情况 看 到 这 一 
结果 : 

























































































sunnyToday .observe (true) 
println(VariableElimination.probabilityl(greetingToday, "Hello, world!")) 


// prints 0.6 because the then clause is always taken 


sunnyToday .observe (false) 
println(VariableElimination.probabilityl(greetingToday, "Hello, world!")) 


// prints 0.2 because the else clause is always taken 
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2.4.2 Dist 


Dist 是 一 个 实用 的 复合 元 素 ，Dist 与 Select 类 似 ， 但 是 它 选择 一 组 元 素 中 的 一 个 而 
不 是 选择 一 组 值 中 的 一 个 ,每 个 选择 本 身 是 一 个 元 素 , 这 也 就 是 Dist 是 复合 元 素 的 原 
如 果 您 想 要 在 本 身 是 随机 过 程 的 复杂 选择 之 间 选 择 ，Dist 很 实用 。 例 如 ， 足 球 中 的 角球 
可 能 从 短 传 或 者 高 吊 传 中 开始 。 这 可 以 由 一 个 Dist 元 素 表 示 , 该 元 素 在 两 个 过 程 之 间 选 
择 ， 一 个 从 短 传 开 始 ， 另 一 个 从 高 吊 传 中 开始 。 

Dist 在 com.cra.figaro.language 包 中 ， 下 面 是 Dist 元 素 的 一 个 例子 : 





By 















































Val goodMood = Dist (0.2 => Flip(0.6); 0.8 => Flip(0.2)) 


如 图 2-8 所 示 ，Dist 元 素 的 结构 类 似 于 图 2-5 中 Select 的 结构 。 不 同 之 处 在 于 ， 选 
择 的 不 是 结果 值 而 是 结果 元 素 。 您 可 以 这 样 认为 : Select 直接 选择 一 组 可 能 值 中 的 一 个 ， 
没有 任何 中 间 过 程 。Dist 是 间接 的 : 它 选择 一 组 过 程 中 的 一 个 运行 ， 在 运行 中 产生 一 个 



































































































































值 。 在 例子 中 ， 由 Flip(0.6) 表 示 的 过 程 被 选中 的 概率 为 0.2， 由 Flip(0.2) 表 示 的 过 程 被 选 
中 的 概率 为 0.8。 
概率 右 箭 头 匹配 概率 和 结果 
区 _ 本 -一 
v v 7 
Dist(0.2-> Flip(0.6),0.8-> Flip(0.2)) 
全 A 
AN / 
~ 一 
可 能 结果 元 素 





图 2-8 Dist 元 素 结构 




















下 面 是 查询 这 一 元 素 得 到 的 结 


println (VariableElimination.probability(goodMood, true)) 
// prints 0.28 = 0.2 *0.6+ 0.8 * 0.2 


2.4.3 ”原子 元 素 的 复合 版 本 


您 已 经 看 到 了 采用 数值 参数 的 原子 元 素 。 例 如 ，Flip 以 概率 为 参数 ，Normal 以 均值 
和 方差 为 参数 。 如 果 您 对 这 些 数 值 参 数 不 确 定 该 怎么 办 ? 在 Figaro 中 ,答案 很 简单 : 将 
它们 自身 作为 元 素 。 
制作 数值 参数 元 素 时 ， 您 就 得 到 了 原子 元 素 的 复合 版 本 。 例 如 ， 下 面 的 代码 定义 一 
个 复合 Flip 元 素 ， 并 用 它 进 行 推理 : 
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val sunnyTodayProbability = Uniform(0, 0.5) 

val sunnyToday = Flip(sunnyTodayProbability) 
printiln(Importance.probability(sunnyToday, true)) 
// prints something like 0.2548 























这 里 ，sunnyTodayProbability 表示 对 今天 是 晴天 的 概率 的 不 确定 性 ， 您 认为 0 一 0.5 
的 任何 值 可 能 性 一 样 大 。 那 么 ，sunnyToday 为 true 的 概率 等 于 sunnyTodayProbability 元 
素 的 值 。 一 般 来 说 , 复合 Flip 取 单 一 参数 , 即 表 示 Flip 为 true 概率 的 一 个 Element[Double]。 
Normal 提供 了 更 多 可 能 性 。 在 概率 推理 中 ， 假 定 正 态 分 布 有 一 个 特定 的 已 知 方差 ， 
通过 均值 表示 不 确定 性 的 情况 很 常见 。 例 如 ， 您 可 能 假定 温度 的 方差 为 100， 而 均值 在 
40 左右 ， 但 是 对 此 不 太 确 定 。 此 时 可 以 用 如 下 代码 捕捉 这 种 不 确定 性 : 











































































































































































































val tempMean = Normal (40, 9) 
val temperature = Normal (tempMean, 100) 


println(Importance.probability(temperature, (d: Double) => Q > 50)) 





// prints something like 0.164 





























此 外 , 您 也 可 能 对 方差 不 确定 , 认为 它 可 能 是 80 或 者 105。 此 时 可 以 使 用 如 下 代码 : 


val tempMean = Normal (40, 9) 

val tempVariance = Select(0.5 -> 80.0, 0.5 -> 105.0) 
val temperature = Normal (tempMean, tempVariance) 
println(Importance.probability(temperature, (d: Double) => d > 50) 
// prints something like 0.1549 





更 多 信息 请 参见 : 本 章 只 说 明了 Figaro 提供 的 原子 和 复合 元 素 中 的 一 小 部 分 。 您 可 以 查看 Figaro 
的 Scaladoc， 以 了 解 更 多 实用 的 例子 。Scaladoc (www.cra.com/Figaro ) 和 Javadoc 类 似 ， 
是 自动 生成 的 Figaro 库 HTML 文档 。 它 还 包含 在 Figaro 二 进 制 下 载 中 ， 可 从 Figaro 网 
页 上 下 载 。 这 一 下 载 包 含 一 个 形 如 figaro_2.11-2.2.2.0-javadoc.jar 的 文件 。 该 档案 的 内 容 
可 以 使 用 7-Zip 或 者 WinZip 等 程序 解压 。 








用 Apply 和 Chain 构建 更 复杂 的 模型 


Figaro 提供 两 种 构建 模型 的 有 用 工具 ， 称 作 Apply 和 Chain。 这 两 种 工具 都 是 重要 
的 元 素 。Apply 可 以 在 Figaro 中 引入 Scala， 利 用 其 全 部 能 力 。Chain 可 以 无 限 的 方式 创 
建 元 素 之 间 的 相互 依赖 关系 。 目 前 为 止 您 所 看 到 的 复合 元 素 〈 如 开 和 复合 Flip) 可 以 特 
定 的 预定 义 方式 创建 依赖 关系 。Chain 可 以 超越 这 些 预定 义 依赖 关系 ， 创 建 您 所 需要 的 
任何 依赖 。 
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Apply 
我 们 从 Apply 开始 ， 这 个 元 素 在 com.cra.figaro.language 包 中 。Apply 以 一 个 元 素 
和 一 个 Scala 函数 作为 参数 ， 它 代表 将 Scala 函数 应 用 到 该 元 素 值 以 获得 新 值 的 过 程 
例如 : 






































o 


val sunnyDaysInMonth = Binomial (30, 0.2) 
def getQuality(i: Int): String = 

if (i > 10) "good"; else if (i > 5) "average"; else "poor" 
val monthQuality = Apply (sunnyDaysInMonth, getQuality) 
println(VariableElimination.probability (monthQuality, "good")) 
// prints 0.025616255335326698 





上 述 代码 中 的 第 2 行 和 第 3 行 定义 一 个 名 为 getQuality 的 函数 。 这 个 函数 取 一 个 
Integer 型 参数 ，getQuality 函数 中 的 参数 局 部 名 称 为 1。 根据 第 3 行 中 的 代码 ， 该 函数 返 
回 一 个 字符 串 。 

第 4 行 定义 一 个 Apply 元 素 monthQuality。Apply 元 素 的 结构 如 图 2-9 所 示 ， 它 取 
两 个 参数 ， 第 一 个 是 元 素 ， 在 本 例 中 是 Blement[Int] 类 型 的 sunnyDaysInMonth。 第 二 个 
参数 是 函数 ， 参 数 类 型 与 元 素 的 值 类 型 相同 。 在 我 们 的 例子 中 ， 函 数 getQuality 取得 一 
个 Integer 型 参数 ， 因 此 两 者 互相 匹配 。 该 函数 可 以 返回 任何 类 型 的 值 ， 在 我 们 的 例子 
中 ， 函 数 返回 一 个 字符 串 。 













































































应 用 函数 的 元 素 
Apply(sunnyDaysInMonth, getQuality) 


应 用 到 元 素 值 的 孔 数 
图 2-9 Apply 元 素 结 构 














下 面 介 绍 Apply 元 素 定义 随机 过 程 的 方式 。 它 首先 生成 第 一 个 元 素 参数 的 值 。 在 
a 生成 当月 中 晴天 的 特定 数量 ， 我 们 假定 生成 的 是 7。 然 后 ， 该 过 程 取 
得 第 二 个 函数 参数 ， 并 将 其 应 用 到 生成 的 值 。 在 我 们 的 例子 中 ， 过程 将 函数 getQuality 
让 用 到 7， 获 得 结果 average。 该 结果 成 为 Apply 元 素 的 值 。 从 这 里 可 以 看 出 ，Apply 
的 可 能 值 和 函数 参数 的 返回 值 类 型 相同 。 在 我 们 的 例子 中 ，Apply 元 素 是 一 


Element[String] 。 
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如 果 您 对 Scala 还 很 陌生 ， 那 么 我 来 介绍 一 下 匿名 函数 。 如 果 只 想 在 一 个 位 置 上 使 
用 ,为 每 个 Apply 元 素 定 义 单 独 的 函数 可 能 令 人 烦恼 ， 尤 其 是 上 例 中 的 简短 函数 。Scala 
提供 了 匿名 函数 ， 可 以 直接 在 使 用 的 位 置 定义 。 图 2-10 展示 了 一 个 匿名 函数 的 结构 ， 
它 的 定义 和 getQuality 相同 。 这 一 结构 的 组 件 类 似 于 命名 函数 。 函 数 有 一 个 参数 i， 类 型 
为 mteger。=> 符 号 表示 定义 的 是 匿名 函数 。 最 后 是 一 个 函数 体 ， 与 getQuality 相同 。 



















































































函数 参数 。 函数 定义 符 


SA 二 


v 
(1: Int) => if (1 > 10) "good"; else if (1 > 5) "average"; else "poor" 
A 
| OO 
/ 函数 体 
参数 类 型 








图 2-10 ”匿名 函数 结构 











您 可 以 使 用 匿名 函数 定义 和 前 一 个 元 素 等 价 的 Apply 元 素 ; 





val monthQuality = Apply (sunnyDaysInMonth， 


(i: Int) => if (i > 10) "good"; else if (i > 5) "average"; else "poor") 


























现在 ， 您 可 以 查询 monthQuality。 不 管 使 用 哪 一 个 版 本 的 monthQuality， 得 到 的 答 
案 都 相同 : 


println(VariableElimination.probability (monthQuality, "good")) 
// prints 0.025616255335326698 




















虽然 Apply 的 这 个 例子 是 人 为 的 , 但 是 使 用 它 有 许多 实际 的 理由 。 下面 是 几 个 例子 。 

图 ”您 有 一 个 双 精 度 元 素 ， 希 望 将 其 值 舍 入 为 最 近 的 整数 。 

加 ”您 有 一 个 元 素 的 值 类 型 是 一 个 数据 结构 ， 希 望 概括 该 数据 结构 的 一 个 属性 。 您 
可 能 有 一 个 以 列表 为 基础 的 元 素 ， 和 希望 知道 列表 项 目 数量 大 于 10 的 概率 。 

国 ”两 个 元 素 之 间 的 关系 最 好 由 一 个 物理 学 模型 编码 。 在 这 种 情况 下 ， 您 可 以 使 用 
一 个 Scala 函数 表示 物理 关系 ， 使 用 Apply 将 物理 模型 嵌入 Figaro。 

多 参数 Apply 

使 用 Apply 时 ， 并 不 限于 只 有 一 个 参数 的 Scala 函数 。Figaro 中 定义 的 Apply 可 以 

使 用 最 多 5 个 参数 。 使 用 多 于 一 个 参数 的 Apply， 是 将 多 个 元 素 结合 在 一 起 承载 男 一 个 

元 素 的 好 办 法 。 例 如 ， 下 面 是 两 个 参数 的 Apply: 
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val teamWinsInMonth = Binomial(5, 0.4) 
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val monthouality = Apply (sunnyDaysInMonth, teamWinsInMonth, 


(days: Int, wins: Int) => { 
val x = days * wins 


if (x > 20) "good"; else if (x > 10) "average"; else "poor" 


}) 

















这 里 ，Apply 的 两 个 元 素 参数 是 sunnyDaysInMonth 和 
Element[Int] 。 函 数 参数 有 名 为 days 和 wins 的 Integer 参数 。 





teamWinsInMonth， 它 们 都 是 
这 个 函数 创建 一 个 局 部 变量 





X， 其 值 等 于 days * wins。 注 意 ， 因 为 days 和 wins 是 常规 的 Scala Integer 变量 ，x 也 是 
常规 Scala 变量 ， 而 不 是 Figaro 元 素 。 实 际 上 ，Apply 函数 参数 中 的 任何 东西 都 是 常规 








的 Scala 内 容 。Apply 取得 在 常规 Scala 值 上 操作 的 Scala 函 
元 素 上 操作 的 函数 。 
现在 ， 查 询 这 个 版 本 的 monthQuality: 


























数 , 将 其 “提升 ”为 在 Figaro 


println(VariableElimination.probability (monthQuality, "good")) 


// prints 0.15100056576418375 





得 出 的 概率 值 略微 提升 。 似 乎 ， 我 的 垒球 队 有 机 会 振奋 人 心 。 更 重要 的 是 ， 尽 


























天 
[Ci 





一 个 简单 的 例子 ， 但 是 例 中 的 概率 在 没有 Figaro 的 情况 下 也 很 难 计算 。 

















2.5.2 Chain 




















顾名思义 ，Chain 〈 链 ) 用 于 将 元 素 链 接 为 一 个 模型 ， 








模型 中 的 元 素 依赖 于 另 一 个 


元 素 ， 那 个 元 素 又 依赖 其 他 的 元 素 ， 依 次 类 推 。 这 与 概率 的 链 式 法 则 相关 ， 第 5 章 将 介 























绍 这 一 法 则 。 但 是 ， 理 解 Chain 并 不 需要 知道 链 式 法 则 








o 











Chain 也 包含 在 com.cra.figaro.language 包 中 。 解 释 Chain 的 最 简单 方式 是 通过 一 引 
图 。 图 2-11 展示 了 两 个 元 素 : goodMood 元 素 依 赖 monthQuality 元 素 。 如 果 您 将 其 看 作 
































中 二 























一 个 随机 过 程 , 该 过 程 首先 生成 monthQuality 的 值 , 然后 使 ) 























用 该 值 生 成 goodMood 的 值 。 





这 是 贝 叶 斯 网 络 的 一 个 简单 例子 ， 第 4 章 中 您 将 学 习 这 种 方法 。 图 中 








se 


借用 了 贝 叶 斯 网 络 

















的 术语 : monthQuality 称 为 父 节 点 ，goodMood 称 为 子 节点 。 








图 2-11 一 个 变量 依赖 于 另 一 个 变量 的 双 变 量 模型 
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忆 为 goodMood 依赖 于 monthQuality，goodMood 使 用 Chain 定义 。monthQuality 元 
素 在 前 一 小 节 已 经 定义 。 下 面 是 goodMood 的 定义 : 











val goodMood = Chain (monthQuality, (s: String) => 
if (s == "good") Flip(0.9) 
else if (s == "average") Flip(0.6) 
else Flip(0.1)) 


图 2-12 展示 了 这 个 元 素 的 结构 。 和 Apply 类 似 ，Chain 取 两 个 参数 : 一 个 元 素 和 一 
个 函数 。 在 本 例 中 ， 元 素 是 父 节 点 ， 函 数 被 称 为 链 函 数 。Chain 和 Apply 之 间 的 差别 是 
Apply 中 的 函数 返回 常规 的 Scala 值 ， 而 Chain 中 的 函数 返回 一 个 元 素 。 在 本 例 中 ， 函数 


返回 一 个 Hip， 选 择 哪 一 个 Flip 取决 于 monthQuality 的 值 。 所 以 ， 这 个 函数 取得 类 型 为 
字符 串 的 参数 ， 返 回 一 个 Element[Boolean]。 


























父 节点 
\ 
y 
Chain(monthQuality, 
(s: String)=> if(s=="goo0d") Flip(0.9); else if (s== "average") Flip(0.6); else Flip(0.1)) 
\ 一 
链 函 数 


图 2-12 Chain 元 素 结构 














这 个 Chain 元 素 定义 的 随机 过 程 如 图 2-13 所 示 。 这 一 过 程 有 3 个 步 又。 首先 ， 为 父 
节点 生成 一 个 值 。 在 本 例 中 ， 为 monthQuality 生成 值 average。 其 次 ， 对 该 值 应 用 链 函 
数 以 获得 一 个 元 素 ， 该 元 素 称 作 结 果 元 素 。 在 例子 中 ， 您 可 以 检查 链 函 数 的 定义 ， 发 现 
结果 元 素 是 Flip(0.6)。 第 三 ， 从 结果 元 素 生 成 一 个 值 ， 例 子 中 生成 的 是 true。 这 个 值 成 
为 子 节点 的 值 。 




































































一 父 节点 什 
"average” <— 
| 一 络 果 过 
Flip(0.6) <— 
| 一 Chain 值 
trueA 一 








图 2-13 Chain 元 素 定义 的 随机 过 程 。 首 先 ， 为 父 节点 生成 一 个 值 。 接 下 来 ， 根 据 链 函数 选择 结果 元 素 。 
最 后 ， 从 结果 元 素 生 成 一 个 值 









































父 节 点 的 值 





下 面 我 们 总 结 Chain 中 涉及 的 所 有 类 型 。Chain 由 两 个 类 型 参 交 
类 型 ( 称 作 TT) 和子 节 点 的 值 类 型 ( 称 作 U)。 
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父 节点 类 型 为 Element[T]。 

节点 值 类 型 为 T。 

链 函 数 类 型 为 了 => Element[U]。 这 意味 着 该 函数 从 T 类 型 得 出 Element[U]。 
结果 元 素 的 类 型 为 Element[U]。 

链 值 类 型 为 U。 
子 节点 的 类 型 为 Element[U]。 这 是 整个 Chain 元 素 的 类 型 。 

在 我 们 的 例子 中 ，goodMood 是 Element[Boolean]， 可 以 查询 其 值 为 true 的 概率 : 


Println(VariableElimination.pProbpability (goodqMood，true) ) 
// prints 0.3939286578054374 


多 参数 Chain 

让 我 们 来 考虑 一 个 稍微 复杂 些 的 模型 ， 其 中 goodMood 依赖 monthQuality 和 
sunnyToday， 如 图 2-14 所 示 。 

可 以 使 用 一 个 双 参 数 的 Chain 捕捉 上 述 事实 。 在 本 例 中 ， 链 中 的 函数 有 两 个 参数 一 一 
名 为 quality 的 字符 串 参 数 和 名 为 sunny 的 布尔 型 参数 ， 返 回 一 个 Element[Boolean]。 
goodMood 同样 是 Element[Boolean]。 
































sunnyToday 


图 2-14 ”一 个 三 变量 模型 ， 其 中 goodMood 取决 于 其 他 两 个 变量 





下 面 是 代码 : 


val sunnyToday = Flip(0.2) 
val goodMood = Chain (monthQuality, sunnyToday, 
(quality: String, sunny: Boolean) => 
if (sunny) { 


if (quality == "good") Flip(0.9) 
else if (quality == "average") Flip(0.7) 
else Flip(0.4) 
} else { 
if (quality == "good") Flip(0.6) 
else if (quality == "average") Flip(0.3) 


else Flip(0.05) 
} 
println(VariableElimination.probability(goodMood, true)) 
// prints 0.2896316752495942 
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注意 ; 和 Apply 不 同 ，Chain 结构 仅 定义 为 一 个 或 者 两 个 参数 。 如 果 需 要 更 多 参数 ， 可 


Chain 和 Apply。 首 先 使 用 Apply 将 参数 元 素 打 包 为 单一 元 素 ， 该 元 素 的 取 值 是 参数 值 


的 元 组 。 将 这 个 元 素 传递 给 Chain。 这 样 Chain 就 得 到 了 元 素 求 值 中 


使 用 Apply 和 Chain 的 map 及 flatMap 
熟悉 Scala 的 读者 请 注意 ， 在 某 种 程度 上 ，Figaro 元 素 类 似 于 Sca 














以 结合 
需要 的 所 有 信息 。 
a 集合 ( 如 列表 )。 列 表 
以 对 列表 中 的 每 个 值 应 用 函数 以 获得 新 列表 那样 ， 








包含 一 组 值 , 而 元 素 包 含 一 个 随机 值 。 正如 可 








您 可 以 对 包含 在 元 素 中 的 随机 值 应 用 

















个 





函数 以 得 到 








对 列表 中 的 每 个 值 应 用 某 个 函数 是 通过 使 




















让 叉子 二 9 末 人 作 忆 因 








下 二 

















i map 


可 以 将 Apply(Flip(0.2), (b: 








FF 


人 新 元 素 。 这 正 是 i 


方法 实现 的 。 类 化 


Apply 所 做 的 ! 对 于 列表 ， 
地 ， 使 用 Apply 就 为 元 素 
Boolean) => !b) 写 作 Flip(0.2).map(!_)。 
































同样 ， 对 于 丈 





表 ， 可 以 对 每 个 值 应 用 某 个 函数 返 














可 列表 ， 然 后 用 flatMap 将 所 有 结果 列表 





扁平 化 为 单 
然后 取出 元 素 中 的 
0.5), (d: Double) 
Chain 定义 复合 Fii 





























列表 。Chain 以 同样 








的 


方式 对 元 素 中 包含 的 随机 值 应 用 函数 ， 获 得 另 一 个 








元 苯 | 





值 。 所 以 , 元素 的 flatMap 用 Chain 定义 。 
=> Flip(d) 写 做 Uniform(0，0.5).flatMap(Flip(_))。( 顺便 说 一 句 ， 要 注意 使 用 





大 








此 ， 您 可 以 将 Chain(Uniform(0， 












































p 的 方式 。 许 多 Figaro 复合 元 素 可 以 用 Chain 











Scala 中 最 棒 的 特性 之 一 是 他 

















对 元 素 使 用 for 标记 。 
可 以 编写 如 下 代码 : 














for bE WinProb X= UL 


EE 条); 





nC 











这 就 是 我 们 ) 
j 证 据 和 约束 模型 的 方法 。 
































j 简 单元 素 构建 复杂 模型 的 


E 义 了 map 和 flatMap 的 类 型 都 可 以 用 了 


oe py te ra 


定义 。) 




















for 循环 。 可 以 





Lip (winProb) } yield !win 
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2.6.1 





















































现在 ， 我 已 经 相当 详 台 
精力 将 花 在 创建 模型 上 。 但 是 不 要 忽略 订 
观测 值 ， 条 件 和 约束 。 

















观测 值 








地 介绍 了 构建 模型 的 方法 






































如 下 的 语句 : 





和 您 已 经 看 到 使 用 观测 值 指 定 证 据 的 方法 。 在 Hello World 程序 ! 


greetingToday.observe ("Hello, world!") 




















段 旅程 。 在 结束 本 章 之 前 ， 我 将 描述 一 些 






































。 使 用 





Figaro 时 ， 您 的 很 大 一 部 分 





F 据 的 指定 。Figaro 提供 了 3 种 说 明证 据 的 机 制 : 


























已 经 提供 了 一 个 例 











股 来 说 ，observe 是 元 素 上 定义 的 一 个 方法 ， 以 元 素 的 某 个 可 能 取 值 作为 参数 。 



































它 的 效果 是 规定 该 元 素 必须 采 上 


























] 该 值 。 元 素 采 上 





不 同 值 的 任何 随机 执行 都 被 排除 。 这 个 
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观测 值 对 相关 元 素 的 概率 有 影响 。 例 如 ， 在 Hello World 程序 中 ， 您 可 以 看 到 声明 这 个 
观测 值 使 sunnyToday 更 可 能 为 tue， 因 为 根据 该 模型 , 今天 是 晴天 比 不 是 晴天 更 可 能 造 
成 “Hello, world!” 的 问候 语 。 

您 还 看 到 了 关联 观测 值 的 另 一 种 方法 : 


greetingToday.unobserve() 


上 述 语句 删除 greetingToday 上 的 观测 值 (如 果 有 的 话 )， 这 样 就 不 会 排除 任何 随机 
执行 。 结 果 是 ， 关 于 greetingToday 的 证 据 不 影响 其 他 元 素 的 概率 。 
























































































































































2.6.2 条 件 


observe 指定 元 素 的 特定 值 。 如 果 您 知道 元 素 值 的 某 些 相关 情况 ， 但 是 不 确定 该 值 ， 
该 怎么 办 ?Figaro 允许 将 任何 预测 作为 证 据 。 这 称 作 条 件 。 条 件 指定 一 个 布尔 函数 ， 该 
函数 为 真 某 个 值 才 可 能 出 现 。 例 如 : 


打印 
val sunnyDaysInMonth = Binomial(30，0.2) 0.172279182850003 


printlin(VariableElimination.probability(sunnyDaysInMonth, 5) 













































































sunnyDaysInMonth.setCondition((i: Int) => i > 8) 


青天 超过 8 天 


printiln(VariableElimination.probability(sunnyDaysInMonth, 5) 的 证 据 
J 
打印 0， 因 为 5 个 晴天 与 


据 不 符 





T 





证 



























































观察 证 据 并 用 它 推 断 其 他 变量 的 概率 是 概率 推理 的 核心 。 例 如 ， 通 过 观察 当月 的 晴 
天 数量 ， 可 以 推断 某 和 人 是否 可 能 拥有 好 心情 。 使 用 来 自 2.5 节 的 例子 : 


val sunnyDaysInMonth = Binomial (30, 0.2) 






































el 























val monthQuality = Apply (sunnyDaysIinMonth, 
(i: Int) => if (i > 10) "good"; else if (i > 5) "average"; else "poor") 
val goodMood = Chain (monthQuality, (s: String) => 
if (s == "good") Flip(0.9) 
else if (s == "average") Flip(0.6 
else Flip(0.1)) 
println (VariableElimination.probability (goodMood, true)) 
// prints 0.3939286578054374 with no evidence 


设 定 条 件 , 规定 sunnyDaysInMonth 的 值 必须 大 于 8。 然后 , 可 以 看 到 它 对 goodMood 
的 影响 : 


sunnyDaysInMonth.setCondition((i: Int) => i > 8) 

















println(VariableElimination.probability(goodMood, true)) 
// prints 0.6597344078195809 


好 心情 的 概率 明显 上 升 ， 因 为 您 排除 了 晴天 数量 少 于 8 的 “ 坏 ”月 份 。 
Figaro 允许 指定 某 个 元 素 满足 的 多 个 条 件 。 这 通过 使 用 addCondition 方法 实现 ， 该 
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方法 向 元 素 的 现 有 条 件 中 增添 一 个 条 件 。 增 添 条 件 的 结果 是 元 素 值 必须 同时 满足 新 条 件 





和 现 有 条 件 。 
































sunnyDaysInMonth.addCondition((i: Int) => i % 3 == 2) 


述 语 句 说 明 ， 除 了 大 于 
这 就 排除 了 9 和 10 等 可 能 值 
紊 时， 可 以 看 到 它 再 次 上 升 : 


















































8 之 外 ，sunnyDaysInMonth 的 值 还 必须 比 3 的 倍数 大 2。 





， 所 以 ， 最 小 的 可 能 值 为 11。 当 然 ， 当 您 查询 好 心情 的 概 








println(VariableElimination.probability(goodMood, true)) 


// prints 0.9 














可 以 用 removeConditions 删除 某 个 元 素 上 的 所 有 条 件 : 





sunnyDaysInMonth.removeCondit 


3 

















ions () 


Println(VariableElimination.Pprobability (goodqMood，，t 上 rue) ) 


// prints 0.3939286578054374 





again 











性 














顺便 说 一 句 ， 观 测 值 只 是 条 件 的 一 个 特例 ， 要 求 某 个 元 素 取 和 























与 条 件 相 关 的 方法 。 


特定 值 。 下 面 总 结 
































图 ”setCondition 是 元 素 上 的 一 个 方法 ， 以 一 个 预测 作为 参数 。 预 测 必 须 是 从 元 素 值 


We 

















类 型 到 布尔 类 型 的 函数 。setCondition 方法 使 这 个 预测 成 为 元 素 上 的 唯一 条 件 ， 
| 除 现 有 条 件 和 观测 值 。 









































国 addCondition 也 是 元 素 上 的 方法 ， 以 预测 作为 参数 ， 预 测 必 须 是 从 元 素 值 类 型 











2.6.3 ”约束 
约束 提供 了 规定 元 素 相关 








到 布尔 类 型 的 函数 。addCondition 在 现 有 条 件 和 观测 值 之 上 添加 这 个 预测 。 
图 ”removeConditions 是 元 素 上 的 方法 ， 删 除 元 素 的 所 有 条 件 和 观测 值 。 





















































情况 的 更 通用 手段 , 它 通常 有 两 个 目的 : (1) 作 为 指定 “ 软 ” 


















































用 作 软 证 据 的 约束 

假定 您 有 关于 元 素 的 某 种 
有 昌 是 从 外 表 无 法 得 知 我 的 情绪 。 
定 软 证 据 : goodMood 为 false 
这 可 以 使 用 约束 实现 。 约 
没有 强制 规定 ， 但 是 约束 在 这 
































RS 














证 据 的 手段 ; (2) 作为 提供 模型 











型 中 元 素 间 附加 关系 的 手段 。 











证 据 , 但 是 不 是 很 确定 。 例 如 , 您 认为 我 看 上 去 脾气 暴躁 ， 
所 以 您 不 指定 goodMood 为 false 这 样 的 硬 证 据 , 而 是 指 
的 可 能 性 大 于 true 的 可 能 性 。 
束 是 一 个 从 元 素 值 到 Double 类 型 值 的 函数 。 虽 然 Figaro 
个 函数 值 始终 在 0 和 1 ( 含 ) 之 间 时 工作 得 最 好 。 例 如 ， 










































































为 了 表示 我 的 情绪 似乎 暴躁 但 








是 不 确定 的 证 据 ， 您 可 以 为 goodMood 添加 一 个 约束 ， 当 





goodMood 为 true 时 生成 值 0.5， 在 goodMood 为 false 时 生成 1.0: 











goodMood.addConstraint ((b: Boolean) => if (b) 0.5; else 1.0) 


只 有 
某 个 

















2.6 使 








这 个 软 约束 可 以 这 样 解读 ， 在 其 他 
false 的 一 半 ， 因 为 0.$ 是 1.0 的 一 半 。 


















































元 素 值 的 概率 乘 以 该 值 

















的 概率 乘 以 1.0。 这 样 做 之 后 ， 概 率 加 总 不 一 




















来 等 了 


们 的 























条 件 和 约束 指定 


条 件 不 变 的 情况 下 ，goodMood 为 true 的 可 能 
第 4 章 将 
的 约束 结果 。 所 以 , 在 这 个 例子 中 , true 的 概率 乘 以 0.5, false 
定 等 于 1， 所 以 将 被 按 比 
1。 如 果 没 有 这 个 证 据 ， 我 认为 goodMood 为 true 和 false 的 可 能 


证 据 
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性 























讨论 这 方面 的 数学 运算 » 简 而 言 和 


网 调整 ， 使 之 加 起 
性 相同 ， 所 以 它 














概率 均 为 0.5。 看 到 这 个 证 据 之 后 ， 





日 全 











条 件 





和 约束 之 间 的 不 同 是 ， 在 条 件 ， 

















之 下 ， 约 束 改 变 不 同 状态 的 概率 ， 但 是 除非 结果 为 0， 


条 件 





而 下 


























E 将 两 个 概率 乘 以 约束 结果 ， 得 出 
率 为 0.25，false 的 概率 为 0.5， 这 两 个 数 加 起 来 不 为 1， 经 过 比例 调整 ， 最 
goodMood 为 true 的 概率 是 13， 为 false 的 概率 是 2/3。 

5 明 某 些 状态 是 不 可 能 


2 














true 的 概 


后 的 答案 是 




















的 (概率 为 0)。 相 比 

















否则 不 会 使 某 个 状态 变 为 不 可 能 





有 时 候 称 作 硬 条 件 , 因为 它们 设置 了 可 能 状态 不 能 违反 的 规则 , 而 约束 被 称 作 软 约束 。 
































降 ， 
































回 到 示例 程序 ， 在 添加 这 个 约束 之 后 查询 goodMood， 将 看 到 概率 因为 这 个 软 证 据 
但 是 不 像 设 置 “ 我 很 暴躁 ”的 硬 证 据 那样 为 0: 


Println(VariableElimination.pProbability (goodqMood，t 上 rue) ) 
// prints 0.24527469450215497 





捉 。 

为 自 
约束 
能 性 。 


val result1 
val result2 
val’ result3 








约束 提供 了 和 条 件 类 似 的 一 组 方法 。 


图 ”setConstraint 是 元 素 上 的 一 个 方法 ， 








型 到 Double 类 


以 预测 
型 值 的 函数 。setConstraint 方法 使 该 预测 成 为 元 素 上 的 唯一 
以 预测 作为 参数 ， 该 参数 必须 是 从 元 素 


图 ”addConstraint 也 是 元 素 上 的 一 个 方法 ， 





值 类 型 到 Double 类 型 值 的 函数 。addConstraint 方法 在 任何 现 有 约束 


预测 。 


图 ”removeConstraints 是 元 素 上 的 一 个 方法 ， 从 元 素 中 删 
条 件 和 约束 是 相互 独立 的 ， 所 以 设置 条 件 或 孝 




















反之 亦 然 。 
作为 连接 元 素 的 约束 
约束 有 一 种 强大 的 用 途 。 
例如 ， 















































假设 您 的 垒球 队 胜 率 为 40%， 每 场 




















\ 须 是 从 元 素 值 类 
约束 。 


芷 为 参数 。 预 测 必 














上 添加 这 个 




















除 所 有 约束 。 
删除 所 有 条 件 不 会 删除 任何 现 有 约 





























假定 您 认为 两 个 元 素 的 值 相关 ， 
上 赛 可 以 通过 Hlip(0.4) 定 义 。 











再 假设 您 认 
































以 捕捉 这 

















其 推广 到 任何 数量 的 比赛 。 
和 9 先 ， 定 义 3 场 比赛 的 结果 : 


























= Flip(0.4) 
= Flip(0.4) 
= Flip(0.4) 


用 如 下 的 代码 可 以 实现 上 述 模型 。 
和 for 循环 将 


己 的 球 队 有 连续 性 ， 所 以 相 邻 的 比赛 可 能 有 相同 的 结果 。 
言 念 ， 这 个 约束 说 明 相 邻 比赛 得 




















到 相同 值 的 可 能 性 


我 介绍 的 是 3 场 比赛 的 代码 。 但 是 可 以 








您 可 以 添加 对 相 邻 比赛 的 
大 于 得 到 不 同 值 的 可 
j 数 组 
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现在 ， 为 了 表示 发 生 的 情况 ， 创 建 一 个 allWins 元 素 ， 当 所 有 结果 都 为 真 时 ， 
为 true: 


val allWins = Apply(resultl1, result2, result3, 











人 























(wl: Boolean, w2: Boolean, w3: Boolean) => wl && w2 && w3) 


我 们 来 看 看 添加 任何 约束 之 前 所 有 比赛 全 胜 的 概率 : 


println(VariableElimination.probability(allWins, true)) 
// prints 0.064000000000000002 


现在 添加 约束 。 您 将 定义 一 个 makeStreaky 函数 ， 取 得 两 个 比赛 结果 并 对 其 添加 连 
续 性 约束 : 


def makeStreaky (rl: Element [Boolean], r2: Element [Boolean]) { 
val pair = Apply(rl, r2, (bl: Boolean, b2: Boolean) => (bl, b2)) 
pair.setConstraint ( (bb: (Boolean, Boolean)) => 
if (bb._1 == bb._ 2) 1.0; else 0.5 
十 


这 个 函数 以 两 个 Boolean 元 素 为 参数 ， 这 两 个 参数 表示 两 场 比赛 的 结果 。 因 为 约束 
只 能 应 用 到 一 个 元 素 ， 您 希望 使 用 约束 创建 两 个 元 素 之 间 的 关系 ， 所 以 首先 将 两 个 元 素 
打包 成 单一 元 素 ， 该 元 素 的 值 是 一 个 二 元 组 。 这 通过 ApplyG1，r2，(bl1: Boolean，b2: 
Boolean) => (bl, b2)) 实 现 。 现 在 ， 您 有 了 一 个 值 为 两 场 比赛 结果 配对 的 元 素 。 然 后 ， 设 
置 该 配对 的 约束 为 一 个 函数 ， 该 函数 取 一 对 Boolean 变量 bb， 如果 bb._1 ==bb. 2 (配对 
的 第 一 部 分 和 第 二 部 分 相等 ) 则 返回 1， 和 否则 返回 0.5。 这 个 约束 说 明 ， 在 其 他 条 件 不 变 
时 ， 两 场 比赛 结果 相同 的 概率 两 倍 于 不 同 的 概率 。 

现在 ， 您 可 以 使 相 邻 两 场 比赛 的 结果 保持 延续 性 ， 并 查询 所 有 比赛 全 胜 的 概率 : 


makeStreaky (esult1，Lesult2) 





























































































































































































































makeStreaky (result2, result3) 
println(VariableElimination.probability(allWins, true)) 
// prints 0.11034482758620691 


可 以 看 到 ， 概 率 因 为 球 队 的 连续 性 而 明显 上 升 。 


注意 : 了 解 概率 图 模型 的 人 将 会 注意 到 ,使 用 本 节 中 阐述 的 约束 使 Figaro 能 够 描述 无 方向 模型 ， 
如 马尔 科 夫 网 络 。 

























































































我 们 的 Figaro“ 旋 风 之 旅 ” 就 要 结束 。 在 下 一 章 中 ， 您 将 看 到 在 应 用 程序 中 使 用 Figaro 
的 完整 示例 。 
小 结 



























































图 ”Figaro 使 用 和 其 他 概率 推理 系统 相同 的 总 体 结构 ， 具 有 模型 、 证 据 、 查 询 和 提 











2.8 练习 























供 答案 的 推理 算法 。 
图 ”Figaro 模型 由 一 组 元 素 组 成 。 
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曙 ”Figaro 元 素 是 表示 随机 过 程 的 Scala 数据 结构 。 该 过 程 生成 一 个 值 ， 其 类 型 称 

















为 元 素 的 值 类 型 。 
















































































条 件 和 约束 提供 指定 证 据 和 元 素 间 附加 关系 的 丰富 











2.8 练习 











Figaro 模型 始 于 原子 元 素 ， 用 复合 元 素 将 原子 元 素 组 合 起 来 。 
可 以 使 用 Apply 将 任何 Scala 函数 提升 为 Figaro 模型 。 
可 以 使 用 Chain 创建 元 素 之 间 的 许多 有 趣 而 复杂 的 依赖 关系 。 





甘 架 。 

















在 www.manning.com/books/practical-probabilistic-programming 上 可 以 找到 部 分 练习 


的 解答 。 

1. 扩展 Hello World 程序 ， 添 加 表示 下 床 的 一 侧 〈 正 确 
错误 的 一 侧 下 床 ， 问 候 语 总 为 “Oh no, not again!”， 如 果 从 
逻辑 和 之 前 相同 。 




















2. 在 原始 Hello World 程序 中 ， 观 测 到 今天 的 问候 语 是 “Oh no, not again!”， 查询 
序 上 提出 相同 的 查询 。 查 询 





今天 的 天 气 。 现在， 观测 相同 的 证 据 并 在 练习 1 中 修改 的 程 














或 者 错误 ) 的 变量 。 如 果 从 
正确 的 一 侧 下 床 ， 问 候 语 的 















































答案 发 生 了 什么 变化 ? 能 否 直观 地 解释 该 结果 ? 























3. 在 Figaro 中 ， 可 以 使 用 代码 x===z 作 为 如 下 代码 的 简写 : 


Apply(x, z, (bl: Boolean, b2: Boolean) => bl === b2) 

















换言之 ， 如 果 两 个 参数 的 值 相等 ， 产 生 一 个 值 为 true 的 元 素 。 如 果 不 运行 FEgaro， 猜 测 






































下 面 两 段 程序 生成 的 结果 : 




















a) val x = Flip(0.4) 

val y = Flip(0.4) 

Va 有 

Va 了 

println(VariableElimination.probability(w, true)) 
b) val x = Flip(0.4) 

val y = Flip(0.4) 

val z=Yy 

Va 本 


Println(VariableElimination.pProbability(w 七 rue) ) 


现在 ， 运 行 Figaro 程序 检查 您 的 答案 。 
4. 在 下 面 的 练习 中 ， 您 将 发 现 FromRange 元 素 很 有 用 
































数 m 和 nn， 生成 m~n-1 的 随机 整数 。 例 如 ，FromRange(0, 3) 








编写 一 段 Figaro 程序 计算 皂 两 个 骨 子 得 出 总 数 11 的 概率 。 


。 FromRange 








内 
成 0、1、2 的 概率 相同 。 














个 整数 参 
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5. 编写 一 个 Figaro 程序 计算 第 一 个 骨 子 撕 出 6 时， 两 个 骨 子 总 数 大 于 8 的 概率 。 

6. 在 “地 产 大 享 ” 游 戏 中 ， 当 两 个 骨 子 括 出 相同 数字 时 可 以 多 玩 一 个 回合 。 如 果 
连续 三 次 出 现 这 种 情况 ,您 就 会 入 狱 。 编 写 一 段 Figaro 程序 计算 任何 一 个 回合 中 发 生 这 
种 情况 的 概率 。 

7. 想象 一 个 游戏 ， 您 有 一 个 轮 盘 和 5 个 面 数 不 同 的 仍 子 。 轮 盘 有 5 个 概率 相等 的 
结果 : 4、6、8、12 和 20。 在 游戏 中 ， 首 先 转动 轮 盘 ， 然 后 滚动 面 数 与 轮 盘 结果 相同 的 
山子 。 编 写 一 个 Figaro 程序 表现 这 个 游戏 。 

a) 计算 滚动 12 面 骨 子 的 概率 。 

b) 计算 掷 出 数字 7 的 概率 。 

c) 已 知 掷 出 的 是 7， 计 算 滚 动 的 是 12 面 角 子 的 概率 。 

d) 已 知 滚动 的 是 12 面 山 子 ， 计 算 搓 出 数字 7 的 概率 。 

8. 现在 ， 修 改 练习 7 中 的 游戏 ， 轮 盘 有 卡 住 的 趋势 ， 在 连续 两 次 转动 时 停 在 同一 
个 结果 处 。 使 用 与 makeStreaky 类 似 的 逻辑 ， 编 写 一 个 约束 ， 说 明 两 次 相 邻 的 转动 得 到 
相同 值 的 概率 高 于 不 同 值 的 概率 。 连 续 玩 该 游戏 两 次 。 

a) 计算 第 二 次 掷 明 子 得 到 7 的 概率 。 

b) 已 知 第 一 次 掷 观 子 得 到 7， 计 算 第 二 次 掷 出 7 的 概率 。 











































































































































































































































































































第 3 章 


创建 一 个 概率 编程 应 用 程序 





本 章 介绍 如 下 内 容 : 
加 ”概率 编程 应 用 常见 架构 的 使 用 
仅 用 简单 的 语言 特性 设计 一 个 概率 模型 

国 。 从 数据 学 习 模型 ， 根 据 结果 推断 未 来 的 情况 


3 






































建 有 用 的 软件 ? 本章 简 六 





























地 介绍 如 何 用 




















本 章 中 ， 您 将 看 到 基 








圾 邮件 过 滤 模 型 的 组 件 。 


于 概率 编程 的 垃圾 邮件 
断 入 站 邮件 并 将 其 分 类 为 正常 邮件 或 者 垃圾 邮 们 














把 握 全 局 








现在 , 您 已 经 简单 了 解 了 Figaro 的 许多 特性 。 您 可 以 用 它们 做 什么 ? 如 何 用 它们 构 


Figaro 构建 一 个 实际 应 用 。 








过 滤器 的 完整 设计 ， 包 括 模型 设计 、 判 
的 组 件 以 及 从 电子 邮件 训练 集 学 习 垃 
























































在 此 过 程 中 ， 您 将 学 习 到 概率 编程 应 用 中 常用 的 架构 。 




















您 打算 构建 一 个 垃圾 邮件 过 滤器 。 如 何 将 











了 它 的 工作 原理 。 想 象 您 有 一 个 电子 由 
用 户 。 当 入 站 邮件 到 达 时 ， 服 务 器 将 其 
概率 推理 确定 该 邮件 为 垃圾 邮件 的 概率 。 然 后 ，| 
用 垃圾 邮件 概率 ， 根 据 某 种 策略 













































































传递 给 1 

















悄 圾 














其 融入 更 大 的 电子 邮件 应 用 ? 图 3-1 说 明 
Bp 件 服务 器 ， 其 工作 之 一 是 获得 入 站 邮件 并 递交 给 























各 











b 件 过 滤器 的 推理 组 件 。 该 组 件 使 用 








这 个 概率 传递 给 一 个 过 滤器 ， 后 者 使 




















定 是 否 人 允许 











已 








b 件 通过 。 
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5. 过 滤器 根据 策略 评估 
垃圾 邮件 概率 。 如 果 
概率 不 太 高 ， 向 用 户 
转发 该 电子 邮件 





1. 电 子 邮 件 进入 服务 器 


\ 






电子 邮件 服务 器 







\ 
1 
v 





~ 







入 站 邮件 


垃圾 邮件 过 滤 推 理 组 件 


| 电子 邮件 模型 
2. 在 发 送 给 用 户 之 前 ， 4. 推理 组 件 的 输出 是 推 
服务 器 将 电子 邮件 传 推理 算法 理 得 到 的 “该 电子 邮 
递 给 垃圾 邮件 过 滤 扒 件 是 垃圾 邮件 ”的 概率 
理 组 件 


3 推理 组 件 使 用 概率 推理 ， 
对 电子 邮件 模型 和 入 站 电 
子 邮 件 应 用 推理 算法 


图 3-1 电子 邮件 服务 器 中 垃圾 邮件 过 滤器 的 运作 方式 。 
这 是 每 当 新 电子 邮件 到 达 时 都 会 发 生 的 联机 过 程 
































您 可 能 记得 在 第 1 章 中 ， 概 率 推 理 系统 使 用 工作 于 茶 个 模型 上 的 推理 算法 ， 根 据 
证 据 回 答 查 询 。 在 本 例 中 ,该 系统 使 用 包含 在 电子 邮件 模型 中 的 正常 和 垃圾 邮件 模型 。 
杜 询 是 “电子 邮件 是 不 是 垃 极 邮件 "， 管 案 是 垃 极 邮件 概率 。 为 了 正常 工作 ,推理 组 件 
必须 从 某 处 得 到 电子 邮件 模型 。 这 个 模型 从 何 而 来 ?通过 一 个 学 习 组 件 ， 从 训练 数据 
中 “学 习 ”。 

在 概率 推理 中 ， 学 习 是 取得 训练 数据 并 产生 一 个 模型 的 过 程 。 第 1 章 简单 地 介绍 了 
学 习 ， 称 之 为 概率 推理 系统 所 能 完成 的 工作 之 一 。 例 如 ， 足 球 推理 系统 可 以 使 用 一 个 赛 
季 的 角球 数据 学 习 得 出 一 个 角球 模型 , 然后 用 它 预 测 下 一 次 角球 的 结果 。 在 实际 应 用 中 ， 


学 习 被 当 作 创 建 用 于 概率 推理 的 模型 的 一 种 方法 。 其 他 方法 是 使 用 待 建 模 系统 的 知识 人 
工 设计 模型 。 
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图 3-2 展示 了 学 习 组 件 产 生 电 子 邮 件 模 型 的 过 程 。 这 是 一 个 离线 组 件 ， 该 过 程 不 随 
每 个 电子 邮件 而 发 生 ， 可 以 花费 很 长 的 时 间 产 生 最 佳 模型 。 学 习 组 件 完成 其 工作 ， 产 生 
电子 邮件 模型 之 后 ， 推 理 组 件 才能 运行 。 结 束 工作 之 后 不 再 需要 学 习 组 件 ， 除 非 您 想 要 
在 未 来 的 某 个 时 间 更 新 电子 邮件 模型 。 









































电子 邮件 数据 集 由 许 学 习 组 件 用 先 验 电子 邮件 
多 电子 邮件 示例 组 成 一 模型 和 电子 邮件 数据 集 生 
| /成 推理 组 件 所 用 的 电子 邮件 模型 


电子 邮件 让 
垃圾 邮件 过 滤 学 习 组 件 电子 邮 
数据 集 件 模 型 


先 验 电子 邮件 模型 
学 习 算法 





先 验 电 子 邮 件 模型 描述 

从 数据 中 学 习 之 前 已 有 

的 电子 邮件 相关 知识 

图 3-2 学 习 组 件 生 成 电子 邮件 模型 的 方式 。 学 习 过 程 可 能 


花费 很 长 的 时 间 ， 在 线 下 进行 


学 习 组 件 使 用 的 训练 数据 由 一 组 电子 邮件 组 成 。 这 个 数据 集 包 含 正常 邮件 和 垃圾 邮 
件 ， 但 是 不 一 定 都 标记 为 正常 或 者 垃圾 。 学 习 组 件 开始 时 并 非 澡 无 知识 ， 而 是 使 用 在 数 
据 集 上 操作 的 学 习 算 法 ， 取 得 一 个 先 验 电 子 邮 件 模型 ， 将 其 转换 为 推理 组 件 使 用 的 电子 
邮件 模型 。 此 时 ， 您 可 能 认为 我 只 是 将 创建 模型 的 工作 踢 给 别人 。 如 果 学 习 组 件 的 目标 
是 创建 电子 邮件 模型 ， 那 么 先 验 电子 邮件 模型 从 何 而 来 ? 

在 这 个 例子 中 ， 先 验 电子 邮件 模型 包含 构建 垃圾 邮件 过 滤器 所 需 的 最 小 结构 假设 。 
特别 是 ， 这 个 模型 规定 电子 邮件 是 否 垃圾 邮件 取决 于 某 些 词语 的 出 现 或 者 缺失 ， 但 是 不 
规定 哪些 词语 代表 垃圾 邮件 或 者 相关 的 概率 。 后 者 从 数据 中 学 习 获 得 。 先 验 模型 规定 电 
子 邮件 中 不 寻常 单词 的 数量 与 邮件 是 不 是 垃圾 邮件 有 某 种 关系 ， 但 是 不 规定 是 何 种 关 
系 。 同 样 ， 这 种 关系 也 从 数据 中 学 习 。 

稍 后 ， 我 将 详细 解释 学 习 组 件 的 学 习 方 法 ， 简 单 地 说 ， 它 包含 如 下 信息 。 

量 。 哪些 单词 对 分 类 正常 邮件 或 者 垃圾 邮件 有 用 。 这 些 单词 称 为 特征 单词 。 
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程序 























图 ”一 组 参数 ， 表 示 观 察 任何 给 定 电子 邮 代 




















词 出 现在 正常 或 者 垃圾 邮件 中 的 概率 以 及 正常 或 者 垃圾 邮件 包含 许多 不 正常 单 





词 的 概率 等 。 





第 一 项 一 一 特征 单词 在 第 一 次 读 取 数 据 集 时 立即 获得 。 学 习 组 件 的 核心 在 于 参数 的 



































学 习 。 这 些 参数 之 后 供 推理 组 件 使 用 。 


























F 之 前 该 邮件 是 垃圾 邮件 的 概率 、 特 定单 
























































人 们 在 如 何 构 建 高 效 的 垃圾 邮件 过 滤器 方面 已 经 做 了 许多 研究 。 本章 提 供 的 是 一 个 









































相对 简单 的 解决 方案 ， 足 以 说 明 原 理 ， 但 是 要 组 合 为 高 效 的 应 用 程序 ， 








的 工作 。 


运行 代码 


























在 本 章 的 主体 部 分 中 ， 您 将 看 到 本 应 ) 





包含 相当 数量 的 专用 于 文件 IO 的 代码 ， 特 别 是 从 文件 
型 写 入 文件 ， 再 从 文件 中 读 出 的 代码 。 我 不 向 您 展示 局 
















































































主题 关系 不 大 ， 只 会 使 本 章 的 篇 幅 变 得 非常 宛 长 。 


多 还 需要 做 很 多 


j 与 概率 编程 相关 的 所 有 代码 。 这 个 应 用 程序 
F 中 读 取 电子 邮件 和 将 学 习 到 的 模 
了 些 代码 ， 因 为 它们 和 概率 编程 的 
在 本 章 看 到 的 代码 是 一 些 片段 。 要 运 








行 整 个 应 用 需要 完整 的 代码 ， 可 以 在 http://manning.com/pfeffer/PPP_SourceCode.zip 








找到 。 








学 习 组 件 需要 数据 。 您 还 需要 在 系统 天 


























Ff 发 中 进行 测试 和 评估 的 数据 。 





虽然 存在 多 个 





真实 的 垃圾 邮件 数据 集 ， 但 是 它们 在 互联 网 上 的 存在 并 不 可 靠 ,， 所 以 为 了 确保 有 可 用 的 














数据 集 ， 我 已 经 生成 了 自己 的 数据 。 这 不 是 真 















































都 表现 为 从 电子 邮件 
























































找到 的 单词 列表 ,没有 i 





























BE 子 邮件 的 数据 集 ， 每 个 “电子 邮件 ” 





























如 将 其 连 成 句子 或 者 包含 标题 。 但 是 正 





常 和 垃圾 邮件 中 单词 的 分 布 来 源 于 真实 的 正常 和 垃圾 邮件 ， 所 以 从 这 个 角度 看 它 还 是 实 























际 的 数据 。 对 于 解释 本 章 中 概念 的 目的 来 说 ， 这 个 数据 集 足 够 了 。 对 于 














该 使 用 合适 的 电子 邮件 。 











我 的 数据 集 在 名 为 Chapter3Data 的 目录 中 ， 













































































于 训练 的 100 个 电子 邮件 示例 ， 其 中 60 个 是 了 
于 测试 学 习 结果 的 100 个 邮件 。 此 外 ，Labels.txt 文件 包含 所 有 电子 邮件 
垃圾 邮件 , 0 表示 正常 邮件 )。 学 习 组 件 使 月 




















些 标签 ， 那 样 做 就 是 作 浆 了 。 但 是 当 您 想 要 i 
得 到 正确 的 答案 。 原则 上 ， 可 能 没有 为 所 有 














邮件 提供 标 


























L 含 两 个 子 目录 : Training 目录 包含 用 
F; Test 包含 用 
的 标签 (1 表示 





E 常 邮件 ，40 个 是 垃圾 邮 








实际 ) 








民 
A 
SS 
史 
之 

长 









































日 这 些 标 签 帮助 模型 学 习 。 推 




























































































个 子 集 ， 学 习 也 是 有 效 的 ， 本 章 中 的 代码 
起 见 ， 数 据 集 中 的 所 有 电子 邮件 都 有 标签 。 


吏 用 1 个 标记 过 的 子 集 。 























在 构建 学 习 应 用 时 ， 需 要 一 种 在 开发 期 间 评 估 应 用 的 手段 。 存 储 库 

















理 模型 不 使 用 这 
模型 时 ， 将 使 用 标签 检查 推理 组 件 是 否 
签 。 即 使 只 标记 电子 邮件 的 
旦 是 ， 为 了 简单 





















































一 个 评估 程序 ， 其 任务 是 评估 学 习 到 的 模型 的 

















。 因 为 这 不 是 部 署 应 























的 代码 包含 


的 一 部 分 ， 所 
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以 我 不 在 正文 中 描述 它 。 评 佑 程序 的 操作 很 简单 ， 按 照 本 文中 的 解释 ， 您 应 该 能 够 理解 
Evaluator.scala 中 的 代码 。 

运行 本 章 中 代码 的 最 简单 方式 是 使 用 Scala 构建 工具 sbt。 首 先 ， 您 将 在 某 些 训练 数 
据 上 运行 学 习 组 件 。 学 习 组 件 取 3 个 参数 : 包含 训练 电子 邮件 的 目录 路 径 、 包 含 标签 的 
文件 路 径 以 及 保存 学 习 结果 的 文件 路 径 。 例 如 ， 您 可 以 调用 : 


sbt "runMain chap03.LearningComponent Chapter3Data/Training Chapter3Data/ 
Labels.txt Chapter3Data/LearnedModel .txt" 


产生 的 输出 如 下 。( 这 里 只 展示 了 最 相关 的 几 行 ， 而 不 是 完整 的 结果 ) 


Number bf elements: 31005 
Training time: 4876.629 













































































































































































结果 显示 创建 了 31005 个 Figaro 元 素 ， 学 习 花 费 了 4876 秒 。 

运行 学 习 组 件 最 重要 的 结果 是 项 目 目录 中 出 现 了 一 个 名 为 LearnedModel.txt 的 文 
件 。 这 是 一 个 文本 文件 ， 包 含 从 学 习 到 支持 推理 所 需 的 信息 。 特 别 是 ， 它 包含 了 用 于 分 
类 的 所 有 相关 单词 列表 以 及 模型 的 所 有 参数 值 。 这 个 文件 的 格式 特定 于 垃圾 邮件 过 滤 应 
用 ， 推 理 组 件 知道 如 何 读 取 。 


注意 : 学 习 组 件 使 用 许多 内 存 。 您 可 能 发 现 自己 必须 明确 地 设 定 Java 虚拟 机 使 用 的 推 空间 。 
可 以 在 Java 初始 化 时 包含 -Xmx8096m 之 类 的 选项 来 实现 . 在 Eclipse 中 , 可 以 在 Eclipse 
安装 目录 中 的 eclipse.ini 加 入 这 个 选项 。 在 这 种 情况 下 ,该 选项 告诉 Java 分 配 8096 MB 
(8GB ) 堆 空 间 。 


有 了 这 个 模型 之 后 ， 可 以 使 用 推理 模型 分 类 特定 电子 邮件 是 不 是 垃圾 邮件 。 为 此 ， 
运行 推理 组 件 ， 该 组 件 以 想 要 分 类 的 电子 邮件 路 径 和 学 习 模 型 路 径 为 参数 。 例 如 ， 可 以 
这 样 调用 : 
sbt "runMain chap03.ReasoningComponent Chapter3Data/Test/TestEmail_3.txt 
Chapter3Data/LearnedModel .txt" 


上 述 调用 输出 测试 电子 邮件 3 是 垃圾 邮件 的 概率 。 
最 后 ， 可 以 在 测试 集 上 评估 学 习 结 果 。 您 可 以 调用 评估 程序 完成 这 项 工作 ， 该 程序 
有 4 个 参数 。 前 三 个 参数 是 包含 测试 电子 邮件 的 目录 路 径 、 包 含 标签 的 文件 路 径 以 及 包 
含 学习 模 型 的 文件 路 径 。 最 后 一 个 参数 对 应 于 图 3-1 中 的 策略 。 该 参数 提供 将 电子 邮件 
归 类 为 垃圾 邮件 的 概率 阔 值 。 如 果 推 理 组 件 认为 电子 邮件 是 垃圾 邮件 的 概率 高 于 阔 值 ， 
就 将 其 归 类 为 垃圾 邮件 ; 否则 归 类 为 正常 邮件 。 这 个 阔 值 控制 垃圾 邮件 过 滤器 的 敏感 度 。 
如 果 将 阔 值 设置 为 99%， 过 滤器 将 仅仅 拦截 很 确定 是 垃圾 邮件 的 邮件 ， 但 是 许多 垃圾 邮 
件 可 能 通过 。 如 果 闵 值 为 50%， 可 能 拦截 大 量 的 非 垃 圾 邮件 。 例 如 ， 运 行 如 下 命令 : 
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sbt 


第 3 章 


创建 一 








个 概率 编程 应 | 











Chapter3Data/LearnedModel.txt 0.5" 


True positives: 


True negatives: 
Threshold: 0.5 
AcCouracys 0.98 
Precision: 1.0 


Recall: 








类 为 垃圾 由 


False negatives: 
False positives: 


将 产生 如 下 的 输出 : 


0.9565217391304348 


结果 总 结 了 垃圾 邮件 过 滤器 的 性 能 。 





b 件 的 








了 件 确 














件 被 分 类 为 垃圾 
邮件 。 最 后 ，true negatives ( 真 阴 性 ) 是 正确 地 归 类 为 ] 














b 件 的 数量 。 


























分 类 使 | 








] 的 羡 值 。 


最 后 三 行 显示 各 种 1 











体 来 说 对 概率 编程 并 





本 章 中 的 





的 高 级 方法 ， 您 可 以 使 用 
亨 性 能 

分 类 程序 性 能 的 量化 可 能 很 困 
趣 的 大 部 分 情况 都 是 阴性 
生 误 导 。 例 如 ， 假 定 99% 的 情况 是 阴性 


计量 分 类 程序 








a 


























不 特别 








尺码 在 包含 200 个 








但 是 如 果 您 感 兴 

















实 是 垃圾 邮件 


重要 ， 所 





"runMain chap03.Evaluator Chapter3Data/Test C 


的 个 例 数量 








生 能 指标 。 
以 我 在 站 



































充 材 料 “ 计 量 
有 子 邮件 的 训练 集 
Figaro 从 更 大 的 数据 集中 


上 i 


加 
本 








常 即 件 


分 类 程序 性 能 计 和 


的 邮件 数量 。 








hapter3Data/Labels.txt 


true positives ( 真 阳性 ) 说 明 被 过 
。false positives ( 假 阳 性 ) 表示 正常 由 
false negatives ( 假 阴 性 ) 正 相 反 : 垃圾 邮件 被 分 类 为 正常 


二 滤器 分 














下 
的 主题 很 有 趣 ， 




















行 显 万 


卓 是 总 
+ 








类 程序 性 能 ”中 提供 4 























运作 
is 
























































精确 度 ，f 




















况 。 丸 此 ， A 弟 使 用 准 




















率 计量 其 














发 现 阳 性 结果 的 能 





是 在 现实 中 ， 您 得 到 的 是 
确 率 和 召 














， 而 您 所 感 兴 





难 。 最 明显 的 讨 量 指标 是 精 
趣 的 














是 找 日 


确 度 ， 也 就 是 正 
阳性 ， 
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EF。 只 需要 将 任何 东 E 











都 归 类 
























































阴性 





0° 





三 一 





个 很 差 的 分 类 程 


( 避免 假 阴性 的 能 力 )。 


序 ， 


为 它 永 远 不 能 
回 率 等 指标 。 准 确 率 是 分 类 程序 避免 假 阳性 
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~ TP+FP+FN+TN 
TP 











召回 率 = 





7TP+FP 


TP 
TP+FN 

















现在 您 








,经 




















先 ， 从 应 / 











程序 





的 整体 架构 


精确 的 定义 如 下 。 7 表示 真 阳性 数量 ，fFP 表 示 假 阳性 


























确 分 类 的 比例 。 
那么 这 一 指标 可 能 产 
类 为 阴性 ， 就 能 获得 


找 出 您 感 兴 


99% 的 
趣 的 情 


的 能 力 。 名 回 








田 节 和 代码 。 





里 解 了 如 何 训练 和 运行 垃圾 邮件 过 滤器 ， 我 们 来 看 看 它 工 作 的 情 ; 
开始 ， 然 后 学 习 模 型 
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3.3.1 
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探索 垃圾 邮件 过 滤 应 用 的 架构 











您 将 会 发 现 ， 


















































推理 组 件 架 构 


在 决定 组 件 的 架构 时 ， 需 要 首先 确定 输入 、 输 出 及 两 者 之 间 的 关系 。 对 于 我 们 的 垃 
圾 邮件 过 小 应 用 ， 您 的 目标 是 以 电子 邮件 为 输入 ， 确 定 它 是 正常 邮件 还 是 垃圾 邮件 。 因 








为 这 是 一 个 概率 编程 应 | 














子 邮 件 是 垃圾 邮件 的 概率 。 为 了 简单 起 见 ， 您 
垃圾 邮件 过 滤 推 
四 输入 一 一 表示 电子 邮件 的 文本 文件 。 






































YH 


里 组 件 总 结 如 下 。 


















































回 到 3.1 节 ， 我 们 的 垃圾 邮件 过 滤器 包括 两 个 组 件 。 一 个 在 线 组 件 执 行 概率 推理 ， 将 
电子 邮件 分 类 为 正常 邮件 或 者 垃圾 邮件 ， 正 确 
电子 邮件 训练 集中 学 习 电 子 邮 件 模型 。 下 面 几 个 小 节 描 述 推理 组 件 和 学 习 组 件 的 架构 。 
和 它们 有 许多 共同 部 分 。 














地 过 滤 或 者 传递 给 用 户 。 一 个 离线 组 件 从 












































]， 所 以 不 会 以 布尔 型 的 垃圾 /正常 邮件 分 类 为 输出 , 而 是 产生 电 

















将 假定 电子 邮件 输入 是 一 个 文本 文件 。 








回 ”输出 一 一 表示 电子 邮件 是 垃圾 邮件 的 概率 的 双 精 度 类 型 值 。 





用 的 架构 
圾 邮件 。 








现在 ? 


， 如 
它 以 











您 将 一 步 一 步 地 构建 垃圾 邮件 过 滤器 的 架构 。 
第 1 步 : 以 概率 推理 系统 的 形式 定义 概要 架构 
首先 ， 您 可 以 回 到 第 1 章 中 介绍 的 概率 推 














里 系统 基本 架构 ， 粗 略 地 制定 垃圾 过 滤 应 






































邮件 是 垃圾 邮件 的 概率 。 


证 据 
电子 邮件 文本 


查询 


* 该 邮件 是 不 是 垃圾 邮件 ? 


图 3-3 所 示 。 垃 圾 邮件 过 滤 推 理 组 件 用 于 确定 电子 邮件 是 正常 邮件 还 是 垃 
电子 邮件 文本 作为 证 据 。 查 询 是 “该 邮件 是 不 是 垃圾 邮件 ”。 答案 是 电子 

















垃圾 邮件 过 滤 推 理 组 件 











一 正常 和 垃圾 邮件 的 模型 


ES 用 于 从 关于 电子 邮件 的 
一 一 证 据 推理 电子 邮件 是 垃圾 
邮件 概率 的 算法 


答案 
“垃圾 邮件 概率 


3-3 垃圾 邮件 过 滤 推 理 架 构 概 要 。 垃 圾 过 滤器 使 用 在 电子 邮件 模型 上 操作 的 推理 算法 ， 根 据 邮 件 文本 








| 














骨 定 该 邮件 是 垃圾 邮件 的 概率 
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第 3 章 创建 一 个 概率 编程 应 用 程序 





为 了 获得 这 个 答案 ， 推 理 组 件 使 用 电子 邮件 模型 和 推理 算法 











。 电 子 邮件 模型 是 捕捉 


关于 电子 邮件 一 般 知 识 的 概率 模型 ， 这些 知识 包括 电子 邮件 的 属性 和 该 邮件 是 否 垃圾 邮 









































件 。 推 理 算法 使 用 该 模型 ， 根 据 证 据 回答 “电子 邮件 是 不 是 垃圾 
第 2 步 : 完善 垃圾 邮件 过 滤 应 用 的 架构 
您 想 要 使 用 概率 程序 表示 概率 模型 。 在 Figaro 中 ， 概 率 程 序 



































邮件 ”的 查询 。 


中 包含 元 素 。 回 顾 第 2 





章 ， 在 Figaro 中 ,证 据 以 条 件 或 者 约束 的 形式 应 用 到 单独 元 素 。 所 以 ， 您 需要 一 个 将 电 


























子 邮件 文本 转换 为 可 应 用 到 模型 单独 元 素 的 证 据 的 手段 。 在 机 器 学 习 中 ， 将 原始 数据 转 
化 为 关于 模型 元 素 证 据 的 组 件 一 般 称 作 特 征 提 取 程 序 ( feature extractor )。 数 据 中 应 用 
到 模型 上 作为 证 据 的 方面 被 称 作 特征 。 如 图 3-4 所 示 ， 特 征 提取 程序 以 电子 邮件 文本 作 






































为 输入 ， 将 其 转换 为 一 组 电子 邮件 特征 ， 这 些 特征 成 为 推理 算法 




















垃圾 邮件 过 滤 推 理 组 件 


证 据 
* 电子 邮件 特征 















答案 
* 垃圾 邮件 概率 


图 3-4 垃圾 邮件 过 滤 推 理 架 构 的 第 二 稿 。 您 已 经 添加 了 特征 提取 程序 ， 





查询 始终 相同 ， 因 此 删除 
































的 证 据 。 








而 且 ， 这 个 特殊 的 概率 推理 应 用 始终 回答 同一 个 查询 : 该 电子 邮件 是 不 是 垃圾 邮 




















件 ? 您 不 需要 将 查询 作为 应 用 的 输入 ， 因 此 从 架构 中 删 去 查询 。 
第 3 步 : 详细 描述 架构 


























现在 ， 是 时 候 仔 细 观 察 模型 了 。 图 3-5 展示 了 完善 之 后 的 推理 








架构 ， 它 将 模型 分 为 





三 部 分 : 过 程 ， 包 括 模型 设计 人 员 编 程 的 结构 化 知识 ;从 数据 学 习 而 来 的 参数 ;与 元 素 









































不 直接 相关 但 是 对 推理 有 用 的 辅助 知识 。 






























































创建 模型 需要 技能 ， 本 书包 含 许 多 例子 ， 但 是 一 般 来 说 ， 概 率 模 型 中 的 组 成 部 分 都 
相同 。 我 将 在 3.4 节 中 详细 介绍 垃圾 邮件 过 滤 应 用 的 这 些 成 分 ， 但 是 在 这 里 也 将 做 简单 



































的 介绍 。 该 模型 包含 5 个 不 同 的 成 分 。 


电子 邮 
件 文本 
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定义 模型 中 各 个 元 素 的 模板 。 例 如 ， 一 个 元 素 表 示 电 子 邮 件 是 不 是 垃圾 邮件 ， 














是 知识 的 一 部 分 ,在 这 个 列表 的 最 后 解释 。3. 
的 选择 。 











元 素 之 间 的 相互 依赖 关系 。 例 如 ， 表 示 特 定单 词 存在 的 元 素 依赖 于 表示 电子 邮 们 








其 他 元 素 表 示 电 子 邮件 中 是 否 存在 特定 的 单词 。 这 里 没有 指定 具体 的 单词 ， 那 





4.1 小 节 讨论 坛 圾 过 滤器 模型 元 素 


TT 




















是 垃圾 邮件 的 元 素 。 记 住 , 在 概率 模型 中 , 依赖 关系 的 方向 不 一 定 是 推理 的 方向 。 











您 使 用 单词 确定 电子 邮件 是 否 垃圾 邮件 ,但 是 




















在 模型 中 ,您 可 以 认为 电子 邮件 发 





送 方 首 先决 定 发 送 的 邮件 类 型 “我 打算 向 你 发 送 一 封 垃圾 邮件 ”)， 然 后 决定 邮 








牛 中 的 单词 。 通 常 按照 因果 的 方向 建立 依赖 关 























系 的 模型 。 因 为 ， 电 子 邮 件 的 种 类 



































造成 用 词 的 不 同 ， 依 赖 关系 从 表示 电子 邮件 是 不 是 垃圾 邮件 的 元 素 指向 每 个 单 
词 。 垃 圾 邮件 过 滤器 模型 中 依赖 关系 的 确定 在 3.4.2 小 节 中 详 加 讨论 。 






























垃圾 邮件 过 滤 推 理 组 件 





答案 
* 垃圾 邮件 概率 


图 3-5 ”垃圾 邮件 过 滤 推 理 架 构 的 第 三 稿 。 该 模型 被 分 解 为 过 程 、 参 数 和 知识 。 人 参数 和 知识 来 自学 习 


这 些 依赖 关系 的 函数 形式 。 元 素 的 函数 形式 


表示 电子 邮件 是 不 是 垃圾 邮 
件 和 单词 的 存在 、 这 些 元 素 

/一 间 依 赖 关系 以 及 依赖 关系 的 
函数 形式 等 的 元 素 模板 


一 模型 中 感 兴趣 的 实 
际 单词 等 辅助 知识 


表明 了 元 素 的 类 型 (如 人 下、 原子 


Binomial 或 者 复合 Normal )。 函 数 形 式 没有 指定 元 素 的 参数 。 例 如 ， 前 一 个 依 
赖 关系 采用 包含 两 个 Flip 的 下 形式 : 如 果 电 子 邮 件 是 垃圾 邮件 ， 则 有 某 种 概率 





出 现 单词 rich， 和 否则 ， 该 单词 以 另 一 种 概率 上 
形式 在 3.4.3 小 节 中 定义 。 

















8 现 。 垃 圾 邮件 过 滤器 模型 的 函数 
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3.3.2 学习 组 人 


前 3 个 成 分 组 成 了 


它们 
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图 3-5 中 的 过 程 

















应 用 设计 者 定义 ， 














模型 的 数值 参数 ， 在 
的 概率 是 参数 之 一 。 














图 3-5 
某 个 邮 


显示 为 
牛 是 ] 




















数 ; 


与 过 程 分 离 ， 医 






































为 参数 将 从 训练 数据 











ey 


例如 


知识 。 
知识 。 
系 、 函 数 形 式 或 才 
些 知识 由 包含 训练 


个 概率 编程 


， 是 垃圾 邮 伯 
一 起 组 成 电子 由 
6 参数 2 








程序 


SA. 

















b 件 模型 

















F 过 滤 应 用 在 学 习 之 前 
的 结构 。 

例如 ， 某 个 电子 邮件 是 : 
应 圾 邮件 时 ， 单 词 rich 出 现 的 概率 是 另 一 个 参 
某 个 邮件 不 是 垃圾 邮件 时 ， 单 词 rich 出 现 的 概率 是 














己 知 的 。 














应 圾 邮件 


是 第 三 个 参数 。 这 些 参数 

















学 习 。 














了 











了 件 模型 的 参数 将 在 3.4.4 




















图 3-5 展示 了 用 于 构造 模型 ， 











并 在 特定 情况 























我 用 “知识 ”表示 从 训练 数据 























数值 参数 相关 的 信息 。 





学 习 到 的 任 





F 向 其 应 用 证 
可 不 与 元 素 、 
在 我 们 的 垃圾 邮件 过 滤器 应 用 














居所 用 的 辅助 
元 素 间 依赖 关 
中 ， 这 







































































包子 邮件 中 出 现 的 








单词 以 及 每 个 




















! 词 出 现 次 数 的 字典 组 成 。 





























， 您 需要 这 些 知识 告诉 您 ， 单 词 





“Trich” 是 您 感 兴趣 的 。 基 

















此 ， 知 j 俱 帮助 











定义 模型 的 参数 ， 只 有 在 rich 是 您 所 感 兴趣 的 单词 时 ， 电 子 邮 件 是 垃圾 邮件 时 





























rich 出 现 的 概率 才 是 一 个 参数 。 辅 助 知识 将 在 3.4.5 小 节 进 一 步 讨论 。 
现在 ， 推 理 组 件 的 架构 已 经 相当 完整 ， 可 以 研究 学 习 组 件 了 。 

















架构 




















































































































































































































































































































































































































从 3.1 小 节 中 ， 您 知道 学 习 组 件 的 任务 是 根据 一 个 电子 邮件 数据 集 ， 产 生 推 理 组 
件 使 用 的 电子 邮件 模型 。 正 如 推理 组 件 中 那样 ， 第 一 件 要 做 的 事情 是 确定 学 习 组 件 的 
输入 和 输出 。 从 图 3-5 中 ， 您 知道 输出 必须 是 电子 邮件 模型 的 参数 和 知识 。 但 是 ， 输 
入 是 什么 呢 ? 您 可 以 假定 自己 得 到 了 一 个 用 于 学 习 的 电子 邮件 训练 集 ， 由 它 组 成 输入 
的 一 部 分 。 但 是 如 果 有 人 已 经 将 这 些 电子 邮件 标记 为 正常 邮件 或 者 垃圾 邮件 ， 学 习 就 
轻松 多 了 。 您 将 假定 自己 得 到 了 一 个 电子 邮件 训练 集 ， 以 及 其 中 一 些 邮 件 的 标记 。 但 
是 ， 并 不 是 所 有 电子 邮件 都 必须 标记 ， 您 可 以 使 用 大 的 未 标记 电子 邮件 数据 集 和 较 小 
的 带 标记 数据 集 。 

下 面 是 垃圾 过 滤 学 习 组 件 的 总 结 。 

四 输入 

组 代表 电子 邮件 的 文本 文件 。 
包含 电子 邮件 子 集 的 正常 /垃圾 邮件 标签 的 文件 。 
下。 输出 
一 一 描述 生成 过 程 特征 的 数值 参数 。 
一 一 模型 中 使 用 的 辅助 知识 。 
图 3-6 展示 了 垃圾 邮件 过 滤 学 习 组 件 的 架构 。 它 使 用 了 许多 与 推理 组 件 类 似 的 元 素 ， 
































但 是 有 一 些 重 要 的 差异 。 
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国学 习 组 件 以 先 验 电 子 邮件 模型 为 中 心 。 这 个 模型 包含 的 组 成 部 分 与 推理 组 件 中 
的 电子 邮件 模型 相同 ， 但 是 使 用 先 验 参数 而 非 学 习 组 件 产生 的 参数 。 在 第 5 章 
中 您 将 看 到 ， 先 验 参 数 是 模型 在 观察 任何 数据 之 前 的 参数 。 因 为 学 习 组 件 在 操 
作 之 前 没有 观察 任何 数据 ， 所 以 使 用 先 验 参 数值 。 模 型 的 其 他 两 部 分 一 过 程 
和 知识 一 一 与 推理 组 件 中 完全 相同 。 












































2. 知识 与 先 验 参数 和 过 


1. 知 识 提 取 程序 生成 辅助 知 程 相 结 合 ， 组 成 先 验 
识 , 例如 ， 感 兴趣 的 单词 电子 邮件 模型 
| | 
3. 特征 提取 程序 提取 所 | / 






有 电子 邮件 的 特征 并 
将 其 加 到 证 据 中 / 





垃圾 邮件 过 滤 学 习 组 件 | 


v 
先 验 电子 邮件 模型 





输出 到 推理 组 件 


知识 





输出 到 推理 组 件 





4. 可 用 的 电子 邮件 5. 学 习 算 法 使 用 先 验 
标签 也 可 以 添加 电子 邮件 模型 ， 根 
到 证 据 中 据 证 据 学 习 新 参数 


图 3-6 ”学习 组 件 架构 








图 ”知识 提取 程序 直接 从 训练 电子 邮件 提取 知识 。 例 如 ， 知 识 可 能 包含 出 现在 电子 

邮件 中 的 最 常见 单词 。 这 一 知识 还 将 从 学 习 组 件 输出 、 发 送 给 推理 组 件 。 

国正 如 推理 组 件 中 那样 ， 特 征 提取 程序 提取 所 有 电子 邮件 的 特征 ， 并 将 其 转换 为 
证 据 。 对 于 有 标签 的 电子 邮件 ， 正 常 /垃圾 邮件 标签 也 被 转换 为 证 据 。 
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3.4 


3.4.1 


是 ， 学习 组 件 可 
时 的 操作 ， 
输出 学 习 到 的 参数 和 知识 ， 用 它们 
对 了 解 了 架构 ， 下 面 可 以 观察 实践 中 的 工作 方式 。 下 一 


和 为 每 个 1 构建 模型 的 代码 。 然 后 ， 您 将 看 到 


的 实 


上 面 介 


第 3 章 创建 一 


个 概率 编程 应 | 











程序 




















学 习 组 件 





学习 算法 蔡 代 推 
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二 

















将 在 本 书 ， 
绍 的 


学 习 到 该 算法 。 














都 是 学 习 组 件 的 组 成 部 分 。 








现在 您 已 




















以 运行 一 次 ， 其 结果 可 














以 供 














您 不 应 该 在 每 次 推断 新 电子 



































现 。 

















子 邮件 








设计 电子 邮件 模型 


本 节 介 
程 和 知识 ， 差 别 仅 在 于 参数 ， 
在 Figaro 中 构建 概率 模型 


我 们 将 依次 考察 这 些 成 分 。 最 后 ， 我 还 将 描述 模型 中 的 











因此 设计 
1] 时 

















模型 中 的 元 素 。 

元 素 相互 连接 的 方式 《元 素 间 
依赖 关系 的 函数 形式 。 这 些 函 
例如 ,原子 Flip 是 不 依赖 于 但 























数 





邮件 时 都 运行 它 。 
决 速 地 推断 入 站 





算法 。 
证 据 ， 使 用 模型 学 习 参 数值 。 和 推理 算 溉 


将 架构 分 割 为 推理 
推理 组 件 多 次 使 用 。 从 训练 数据 





A a dt 


这 个 算法 使 | 
类 似 ，Figaro 提供 学 习 算 法 ， 稍 后 您 
































包子 邮件 





关于 所 有 1 





























和 学 习 组 

















的 所 有 





件 的 好 处 之 一 











学 习 是 费 














您 的 设计 可 以 进行 











EE 子 邮 件 。 














介绍 模型 











推 











次 学 习 ， 


的 设计 














为 推理 和 学 习 组 件 使 ) 


























对 两 者 都 适 | 
， 需 要 组 合 4 种 成 分 。 














的 依赖 关系 )。 





多 式 是 有 
何其 他 元 素 的 布尔 (Boolean) 元 素 的 元 素 类 构造 











j 相 同 的 过 


日 于 实现 依赖 关系 的 元 素 类 构造 程序 。 

















程序 ， 而 复合 Flip 是 依赖 于 男 
函数 形式 的 数值 参数 。 








选择 元 素 


件 还 


在 设计 
正常 邮件 ， 其 中 一 些 ! 
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垃圾 邮件 过 滤器 时 ， 必 须 考 
青 况 包括 ; 














十 了 
国 














处 关 于 




















电子 邮件 标题 或 者 正文 中 有 特 
性 高 于 在 正常 电子 邮件 : 
错误 的 拼写 和 其 他 不 正常 的 单 
其 他 电子 邮件 中 的 单词 。 

特定 单词 出 现在 其 他 单词 附近 
自然 语言 特征 ， 如 词性 。 


标题 的 特征 ， 如 发 

























































































词 。 垃 


定 的 单词 


Ho 











出 现 的 可 能 性 。 
圾 邮件 往往 包 


























甫 助 知 识 




















个 元 素 决定 自身 含义 的 双 精 度 元 素 构造 程序 。 





邮件 的 哪些 情况 能 够 说 明 它 是 垃圾 邮 




















例如 ，rich 在 垃圾 邮件 








包含 错误 拼写 的 词 或 不 H 


中 出 现 的 可 能 








现在 





言 人 和 收 信 人 地 址 、 使 用 的 服务 器 等 。 

















为 了 保持 应 | 








3.4 








设计 上 

















四 只 使 用 前 





两 个 项 目 : 电子 邮件 














AN 
大 与 应 
图 尽管 





独 对 1 
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处 理 
为 电 
电子 和 


























b 件 


而 不 管 其 





Ei 对 


子 由 


电子 上 


程 户 相对 简洁 ， 您 将 做 出 


件 模型 


简化 的 设计 划 


















































出 现 该 和 
H 现 次 数 。 














口 





您 








对 了 


FF 不 寻常 








省 的 上 





不 平 


常 的 单 
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词 。 








和 词 ， 您 可 以 妊 
为 了 避免 依赖 外 部 应 用 





的 音 


根据 这 些 














了 
或 者 





在 任 





1000 个 


能 够 
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一 些 可 能 对 


节 件 是 不 是 





垃圾 由 


词 是 不 出 现在 外 





E 何 

















多 将 使 | 











二 是 使 | 
j 第 二 种 选择 。 


的 单 





件 标题 和 正文 进行 推理 


子 邮 件 中 的 某 个 单词 创建 元 素 时 有 两 种 ; 
词 的 次 数 。 


二 











词 以 及 不 寻常 单 
很 有 好 处 ， 但 是 


选择 。 
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策 。 





词 的 出 现 。 
您 将 二 





者 混在 一 起 





Cw 














一 是 使 用 整数 元 素 ， 其 值 是 




















布尔 元 








表示 该 单词 是 否 出 现 ， 





素 , 其 值 
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b 件 。 这 是 
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AAA 








缺少 特定 














创建 表示 单词 是 


且 词 。 


表示 单词 是 否 出 现 





BH 


三 组 与 电子 邮件 中 不 对 


语言 


子 邮 
段 设 ， 您 的 下 一 个 任务 是 选择 模型 的 元 素 。 您 将 有 3 组 元 素 。 第 
过 一 个 布尔 元 素 实现 的 。 第 二 


词 









































牛 中 的 单词 。 





找 每 个 单 
用 不 














是 正确 定义 的 单词 还 是 
的 方法 ， 例 如 ， 不 寻常 
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组 包括 











有 子 邮 伯 











否 出 现 的 元 素 时 ， 必 须 思 
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的 每 个 单词 建立 一 个 元 素 。 但 是 这 将 

















电子 邮件 的 : 








型 训 





元 素 太 多 很 不 好 ， 原 





很 好 地 拟 合 
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LL 已 

















味 着 ， 如 
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太 多 元 
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要 将 其 应 
的 过 程 
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1 是 在 # 








慢 到 无 法 使 














进入 服务 器 的 每 封 电子 由 








出 现 该 和 
您 有 40000 个 单词 
。 这 160 个 单词 可 以 解释 所 
现在 训练 电子 邮件 中 的 ， 所 以 它 介 
素 不 好 的 另 一 个 理由 是 这 会 
了 到 





大 















































可 垃圾 











是 去 
不 合 逻 辑 的 解释 ,而 实际 
垃圾 邮件 。 想 象 一 下 ， 您 在 5 个 电子 邮件 
有 1/3 是 垃圾 由 




















I 有数 二 
的 地 步 。 








个 《或 才 
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因素 ， 








词 ? 可 以 使 




















滤器 中 ， 特 








2 加 
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术 可 能 十 分 复杂 。 





些 复杂 技术 











人 外 














征 选择 的 


您 将 在 














模型 





练 集 包含 40000 多 个 不 同 的 
有 二 。 首 先 ， 这 会 造成 过 度 拟 合 ， 
训练 数据 的 模型 ， 但 是 
I 练 数 据 做 


I 不 


中 随 必 


bp 件 。 





使 得 推 


称 为 特征 选择 的 机 器 学 习 技术 坟 











名词 
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的 数量 有 关 。 


























\ 考 模型 ! 


包含 了 哪些 














词 。 您 可 能 对 出 现 























会 己 7 


能 很 好 
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但 是 根据 








] 没 有 预测 能 
里 和 学 习 很 慢 
g 件 上 。 与 此 同时 ， 学 习 概 率 模型 可 能 是 一 

















岂 概 括 。 当 您 的 元 素数 时 
上 它们 并 不 能 预测 茶 个 
地 放 入 一 个 单词 。 假 定 训练 
词 的 5 个 电子 邮件 都 是 垃圾 邮件 的 概率 大 约 为 /250。 i 
出 现 了 5 次 ， 其 中 只 有 大 约 160 个 单词 上 
这 个 实验 性 的 假设 ， 这 出 


造成 元 素数 量 很 大 。 例 如 ， 包 含 
E 词 。 


也 就 是 说 您 将 学 习 到 一 个 
很 大 时 ， 其 
邮件 是 不 是 


电子 和 














EN 
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现在 垃 


























。 您 希望 推理 尽 可 
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更 多 ) 训练 实例 的 情 


oa 下 一 


§ 况 下。 使 用 大 量 元 素 可 能 














日 而 _ 罩 


个 问题 是 ， 哪 100 








R 定 模型 


由 





含 的 特征 或 者 元 素 。 在 垃 
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标 是 识别 最 可 能 表示 电子 邮件 


如 果 您 打算 构建 一 个 生产 级 别 








中 











的 一 种 。 
这 种 技术 基于 两 种 考虑 。 











首 


但 是 本 章 将 使 

















C, 使 月 


月 出 











种 简 六 





的 技术 。 
现 频率 过 低 的 身 








针 件 的 单词 。 
中 器 ， 可 以 使 





和 
的 垃圾 邮件 过 





























有 词 将 导致 过 度 拟 合 ， 因 为 它 
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本 


们 的 出 现 过 于 随机 ， 没 有 预测 性 。 其 次 ，the 和 and 等 频繁 出 现 的 单词 也 可 能 没有 预测 
性 ， 因 为 它们 在 正常 和 垃圾 邮件 中 都 出 现 很 多 次 。 这 种 单词 称 作 停 用 词 。 所 以 ， 为 了 创 

















建 模型 中 的 单词 列表 ， 您 将 删除 所 有 过 于 频繁 出 现 
表示 不 寻常 单词 的 数量 


























的 单词 ， 使 用 








下 100 个 最 常见 单词 。 





在 模型 中 包含 不 寻常 单词 数量 的 动机 是 垃圾 邮件 倾向 于 包含 比 常规 邮件 更 多 的 不 
寻常 单词 。 实 际 上 ， 在 包含 1000 封 电子 邮件 的 训练 集中 ， 垃 圾 邮件 中 有 28% 的 单词 是 
不 寻常 的 , 而 常规 邮件 中 只 有 18% 的 单词 是 不 寻常 的 。 但 是 对 数据 进行 更 仔细 的 观察 ,就 




























































































会 发 现 更 微妙 的 情况 。 有 些 垃 圾 邮件 有 许多 不 寻常 单词 , 而 有 些 垃圾 邮件 在 不 寻常 单词 的 





























数量 方面 和 正常 电子 邮件 类 似 。 为 了 捕捉 这 一 细节 ， 您 在 模型 中 添加 hasUnusualWords 元 
素 ， 表 示 电 子 邮件 中 是 否 包 含 许多 不 寻常 单词 。 这 是 一 个 隐 含 元 素 ， 它 不 直接 出 现在 数 

































































据 中 ， 但 是 在 模型 中 包含 它 可 以 大 大 提高 精确 度 。 
总 结 一 下 ， 电 子 邮 件 模型 中 的 元 素 如 下 。 























国 ”isSpam 一 一 Boolean 元 素 ， 如 果 电 子 邮件 是 垃圾 邮件 ，] 























其 值 为 true。 




















图 ” hasWordl， ...， hasWord100 一 一 对 应 每 个 是 





子 邮件 中 出 现 ， 值 为 true。 
国 ”hasManyUnusualWords 


true。 




















布尔 元 素 ， 如 果 电 子 邮件 有 许多 不 寻常 的 























和 词 的 布尔 元 素 ， 如 果 该 单词 在 电 














过 








词 ， 值 为 











加 numUnusualVWords 整数 型 (Integer) 元 


电子 邮件 的 单词 数量 。 
































素 , 值 为 邮件 














没有 出 现在 任何 其 他 

















您 可 以 用 下 面 的 Model 类 总 结 模型 中 的 元 素 。 这 个 抽象 Model 类 声明 了 模型 中 的 元 



































素 ， 但 是 没有 提供 其 定义 。 创 建 抽 象 Model 
































类 的 目的 是 用 





ReasoningModel 和 


LearningModel 进行 扩展 。 后 面 您 将 看 到 ， 由 于 推理 模型 和 学 习 模 型 之 间 的 细微 差别 ， 

































































有 必要 创建 两 个 类 ,使 用 抽象 基 类 意味 着 可 以 编写 适用 于 任何 一 类 模型 的 方法 (如 应 用 
证 据 )。 在 第 12 章 中 , 您 将 学 习 一 种 模式 , 该 模式 使 用 单一 模型 类 创建 推理 和 学 习 组 件 ， 


















































从 而 免 去 创建 两 个 类 的 麻烦 ， 但 是 它 使 用 了 您 尚未 学 习 到 的 Figaro 特性 。 


程序 清单 3-1 ”抽象 Model 类 


到 ， 该 字典 包含 关 了 










































































模型 类 以 一 个 字典 作为 参数 ,在 3.4.5 小 节 中 您 将 看 
于 训练 集中 单词 的 辅助 知识 


abstract class Model (val dictionary: Dictionary) 
val isSpam: Element [Boolean] 
val hasManyUnusualWords: Element [Boolean] 
val numUnusualWords: Element [Int] 


{ 


val hasWordElements: List[(String, Element [Boolean])] 


表示 对 应 的 六 


hasWordElements 是 (前 








生词 是 否 出 现在 








模型 中 元 素 的 声明 ,和 
前 几 段 的 描述 一 致 





和 词 ， 元 素 ) 配对 ， 每 个 元 素 


电子 邮件 中 
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3.4.2 ”定义 依赖 关系 


我 们 首先 定义 isSpam 元 素 和 所 有 word 元 素 的 依赖 性 模型 。 定 义 概 率 模型 的 依赖 关 
系 时 , 常用 的 经 验 法 则 是 对 象 类 决定 对 象 属性 , 也 就 是 说 属性 取决 于 依赖 性 模型 中 的 类 。 
在 我 们 的 例子 中 ， 电 子 邮件 是 不 是 垃圾 邮件 决定 了 所 有 单词 是 否 出 现 。 

前 面 我 已 经 提 到 过 这 一 点 , 但 是 值得 重申 , 因为 它 很 重要 ,人们 往往 对 此 感到 困惑 。 
您 将 使 用 单词 确定 电子 邮件 是 不 是 垃圾 邮件 。 那么 ， 为 什么 我 说 电子 邮件 的 分 类 决定 单 
词 ， 而 不 是 反 过 来 呢 ? 关键 的 要 点 是 ， 在 概率 推理 中 ， 推 理 的 方向 不 一 定 是 模型 中 依赖 
性 的 方向 。 推 理 的 方向 往往 和 依赖 性 的 方向 相反 , 因为 您 试图 确定 导致 观测 结果 的 因素 。 
这 里 ， 您 建立 的 是 电子 邮件 本 质 〈 是 垃圾 邮件 还 是 正常 邮件 ) 的 模型 ， 电 子 邮件 的 本 质 
是 没有 观察 到 的 因素 ， 它 是 观测 到 的 单词 的 根源 。 所 以 ， 模 型 中 的 依赖 关系 方向 是 从 电 
子 邮 件 分 类 到 单词 。 

话 虽 如 此 , 您 还 需要 确定 是 否 建 立 单词 之 间 依 赖 性 的 模型 。 在 英语 或 者 任何 语言 中 ， 
句子 第 一 个 单词 的 选择 与 第 二 个 单词 紧密 相关 。 实 际 上 ， 单 词 不 是 独立 的 。 但 是 为 了 保 
持 本 章 的 简洁 , 我 假设 在 电子 邮件 分 类 (正常 或 者 垃圾 ) 给 定 的 情况 下 , 单词 是 独立 的 。 

您 可 以 绘制 名 为 贝 叶 斯 网 络 的 框图 ， 说明 模型 中 的 依赖 关系 。 第 5 章 将 介绍 贝 叶 斯 
网 络 。 现 在 需要 了 解 的 一 点 是 ， 如 果 网 络 中 的 一 个 节点 依赖 于 另 一 个 节点 ， 则 两 个 节点 
之 间 存 在 一 条 边 。 对 于 目前 为 止 的 垃圾 邮件 过 滤器 ， 可 以 得 到 图 3-7 中 所 示 的 贝 叶 斯 
络 。 这 种 网 络 称 为 朴素 贝 叶 斯 模型 一 一 称 之 为 朴素 ， 是 因为 它 假设 单词 是 相互 独立 的 。 
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hasWord100 


图 3-7 isSpam 和 word 元 素 的 朴素 贝 叶 斯 依赖 性 模型 























下 面 , 我 们 介绍 用 于 不 寻常 单词 的 元 素 。 记 住 , 您 有 两 个 元 素 : hasManyUnusualWords 
和 numUnusualWords。hasManyUnusualWords 表示 电子 邮件 中 的 单词 是 否 倾 向 于 不 寻常 
单词 , 而 numUnusualWords 是 一 个 数字 。 因 为 包含 大 量 不 寻常 单词 的 电子 邮件 的 不 寻常 
单词 数量 很 可 能 比 不 包含 大 量 不 寻常 单词 的 电子 邮件 大 ，numUnusualWords 自然 依赖 于 
hasManyUnusualWords。 而 hasManyUnusualWords 是 电子 邮件 的 属性 , 依赖 于 表示 电子 
邮件 分 类 的 isSpam。 最 后 ， 继 续 朴素 贝 叶 斯 模型 的 假设 ， 在 分 类 已 知 的 情况 下 ， 不 寻常 
单词 的 出 现 独立 于 任何 给 定 特 殊 单词 的 出 现 。 您 最 终 得 到 图 3-8 中 的 贝 叶 斯 网 络 。 这 是 
垃圾 邮件 过 滤器 应 用 的 最 终 依赖 性 模型 。 
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hasManyUnusualWords 
hasWord100 


图 3-8 ”包含 不 寻常 单词 的 完整 依赖 性 模型 






numUnusualWords 








3.4.3 ”定义 函数 形式 


您 必须 为 4 组 元 素 定义 函数 形式 ,函数 形式 同样 是 构建 模型 所 用 的 元 素 类 构造 程序 。 
除了 未 指定 的 数值 之 外 ， 表 达 模 型 所 需 的 就 是 它们 了 。 我 将 依次 介绍 这 些 函 数 形式 。 首 
先 ， 为 推理 组 件 定义 函数 形式 ， 在 这 个 组 件 中 ， 假 定 学 习 组 件 已 经 生成 了 参数 值 。 下 面 
是 推理 模型 的 代码 ， 我 将 在 代码 之 后 详细 解释 每 个 元 素 的 定义 。 













































































程序 清单 3-2 ”推理 模型 


推理 模型 的 参数 是 学 习 
class ReasoningModel ( 产生 的 字典 和 参数 
dictionary: Dictionary, 
parameters: LearnedParameters 
) extends Model (dictionary) { | 
i> Val isSpam = ELip(Parameters.spamProbability) ReasoningModel 实现 抽 














表示 电子 象 Model 类 
b 件 是 不 
是 垃圾 邮 val Lao or ements = { | 
件 的 元 素 for word <- dictionary.featureWords } yield { 
7 条 val givenSpamProbability = 表示 某 个 单词 是 否 出 
Parameters .wordGivenSpamProbabilities (word) 现在 电子 Ep 件 中 的 元 
val givenNormalProbability = 素 。 这 段 代码 创建 一 
NO TY CC 
parameters.wordGivenNormalProbabilities (word) 2 
个 (单词 ， 元素 ) 配 





val hasWordIfSpam = Flip(givenSpamProbability) 
val hasWordqIfNormal = Flip(givenNormalProbability) 对 列表 ， 每 个 列表 项 
val hasWord = If(isSpam, hasWordIfSpam, hasWordIfNormal) 代表 一 个 特征 单词 

(word, hasWord) 














val hasManyUnusuallfSpam = 
Flip(parameters.hasManyUnusualWordsGivenSpamProbability) 











元 EF 中 县 不 

val hasManyUnusualIfNormal = 表示 电子 邮件 中 是 否 

Flip (parameters.hasManyUnusualWordsGivenNormalProbability) 有 许多 不 寻常 单词 的 
val hasManyUnusualWords = 元 素 





f(isSspam, hasManyUnusuallfSpam, hasManyUnusuallfNormal) 
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val numUnusualIfHasMany = 
Binomial (Model .binomialNumTrials, 


parameters.unusualWordGivenManyProbability), 








证 二 导演- 的 

val numUnusualIfHasFew = a 
Dp 

Binomial (Model .binomialNumTrials, 词 数 量 的 元 素 





parameters.unusualWordGivenFewProbability), 
val numUnusualWords = 








If (hasManyUnusualWords, numUnusualIlfHasMany, numUnusuallfHasFew) 

















现在 ， 我们 来 详细 了 解 一 下 模型 中 的 每 个 元 素 。 

图 ”isSpam 一 一 这 个 布尔 元 素 为 true 的 概率 就 是 给 定 电子 邮件 是 垃圾 邮件 的 概率 。 

所 以 使 用 Flip 元 素 定义 它 。 在 Figaro 中 ， 定 义 为 val isSpam = Flip(parameter. 

spamProbability)。 这 反映 您 在 查看 任何 单词 之 前 ,电子 邮件 是 垃圾 邮件 的 概率 。 

丸 为 单词 取决 于 电子 邮件 是 不 是 垃圾 邮件 ， 而 且 单 词 可 以 观察 到 ， 所 以 从 单词 
推断 电子 邮件 是 不 是 垃圾 邮件 。 这 就 是 依赖 性 的 方向 与 推理 方向 不 同 的 原因 。 
在 概率 推理 中 ， 您 可 以 从 某 一 根源 产生 的 结果 倒 推出 根源 。 

加 wordl， ...， word100 一 一 每 个 单词 的 出 现 都 有 某 种 概率 。 这 个 概率 取决 于 
子 邮件 是 正常 邮件 还 是 垃圾 邮件 。 对 此 If 结构 最 为 合适 ， 基 本 形式 为 : 




























































































动 | 






























































































































































val hasWordIfSpam = Flip (givenSpamProbability) 
val hasWordIfNormal = Flip (givenNormalProbability) 


val hasWord = If(isSpam, hasWordIfSpam, hasWordIfNormal) 


警告， 





如 果 您 观察 hasWord 的 定义 ， 可 能 认为 通过 消除 hasWordIfSpam 和 hasWordIfNormal， 
编写 如 下 简化 代码 是 可 行 的 : 


val hasWord = If(isSpam, Flip(givenSpamProbability), 
Flip(givenNormalProbability)) 


遗憾 的 是 ，Figaro 有 一 个 限制 ， 依 赖 于 学 习 所 得 参数 (如 Flip(givenSpamProbability) 取 
决 于 学 习 得 到 的 参数 givenSpamProbability ) 的 元 素 不 能 在 Chain 中 定义 ,因为 下 是 Chain 
的 一 个 种 类 ， 取 决 于 学 习 所 得 参数 的 元 素 不 能 在 If 中 定义 。 我 们 希望 在 未 来 的 Figaro 
版 本 中 消除 这 个 限制 。 
图 ”givenSpamProbability 和 givenNormalProbability 得 自学 习 结 果 ， 对 每 个 单词 都 
不 同 。 您 将 为 作为 特征 使 用 的 每 个 单词 创建 这 样 的 下 形式 。 在 Scala 中 ， 创 建 

一 个 列表 ， 其 中 每 个 单词 与 其 hasWord 元 素 配对 。 下 面 是 定义 代码 : 
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本 





dictionary.featureWords 生成 作为 
特征 的 100 个 单词 列表 。 这 个 循 
环 遍 历 所 有 单词 











val hasWordElements = { 
ES word <- dictionary.featureWords } yield { 
Val I VenSbane toabl ity = a 根据 电子 邮件 是 垃圾 
parameters.wordGivenSpamProbabilities (word) Ne 
val givenNormalProbability = g 件 还 是 正 名 邮件 
parameters.wordGivenNormalProbabilities (word) 单词 出 现 的 概率 
val hasWordIfSpam = Flip (givenSpamProbability) 











val hasWordIfNormal = Flip(givenNormalProbability) | 




















val hasWord = If(isSpam hasWordIifSpam, hasWordIifNormal) 创建 表示 单词 
(word, hasWord) 是 否 出 现 的 
: 单词 及 其 元 素 的 配对 。 所 ee 
. 有 这 些 配对 用 for 循环 在 i 
列表 中 连接 起 来 





























加 ”hasManyUnusualWords 一 一 这 个 元 素 为 true 的 概率 取决 于 电子 邮件 是 垃圾 邮件 
还 是 正常 邮件 ， 同 样 ，If 是 合适 的 形式 : 


val hasManyUnusuallfSpam = 








Flip (parameters.hasManyUnusualWordsGivenSpamProbability) 
val hasManyUnusualIlfNormal = 

Flip (parameters.hasManyUnusualWordsGivenNormalProbability) 
val hasManyUnusualWords = 

If (isSpam, hasManyUnusuallfSpam, hasManyUnusualIlfNormal) 


国 ”numUnusualWords 一 一 这 个 整数 型 元 素 表示 电子 邮件 中 不 寻常 单词 的 数量 。 电 

子 邮件 中 的 单词 越 多 ， 就 越 可 能 有 和 较 多 的 不 寻常 单词 。 您 将 为 每 个 有 可 能 的 不 
寻常 单词 建立 模型 。 表 现 这 种 情况 的 自然 途径 是 使 用 二 项 分 布 ， 其 中 试验 次 数 
等 于 电子 邮件 中 的 单词 总 数 。 但 是 电子 邮件 中 的 单词 数量 可 能 超过 1000， 当 试 
验 次 数 那 么 大 时 ， 许 多 numUnusualWords 的 值 概率 极 低 。 所 以 ， 电 子 邮 件 的 概 
率 可 能 极 小 。 这 可 能 导致 在 电子 邮件 很 多 时 发 生 下 洲 : 概率 因为 取 值 太 小 而 无 
法 在 计算 机 上 表示 ， 被 舍 入 为 0。 
为 了 解决 这 个 问题 ， 您 将 试验 次 数 设置 为 固定 数 ， 如 20。 这 个 数字 在 代码 中 用 
Model.binomialNumTrials 常量 表示 。 人 然后， 电子 邮件 中 的 不 寻常 单词 数 按 比 例 
缩小 , 使 其 表现 为 20 的 一 部 分 。 您 将 在 后 面 应 用 证 据 时 进行 这 项 处 理 。 使 用 这 
种 方法 ，numUnusualWords 的 定义 如 下 : 


val numUnusualIfHasMany = 
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Binomial (Model .binomialNumTrials, 
parameters.unusualWordGivenManyProbability), 
val numUnusualIlfHasFew = 





Binomial (Model .binomialNumTrials, 


V 
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parameters.unusualWordGivenFewProbability), 
al numUnusualWords = 
If (hasManyUnusualWords, numUnusuallfHasMany, numUnusualIlfHasFew) 


推理 模型 就 是 这 样 。 除 了 不 使 用 来 自学 习 结果 的 特定 概率 而 使 用 代表 先 验 概率 的 元 














Tk 





YH 





























素 之 外 ， 学 习 模 型 与 此 完全 相同 。 例 如 : 


V, 


C 


3.4.4 


是 
多 可 能 值 之 一 的 随机 元 素 。 当 您 学 习 时 ， 并 不 知道 特定 电子 邮件 是 垃圾 邮件 ， 所 以 用 一 
个 随机 元 素 表 示 概 率 。 学 习 结 果 是 这 一 概率 的 特定 值 , 用 于 推理 。 学 习 模 型 的 代码 如 下 : 


al isSpam = Flip(parameters.spamProbability) 


将 此 与 前 面 为 推理 组 件 定 义 的 元 素 做 比较 : 


al isSpam = Flip(parameters.spamProbability) 


两 者 看 上 去 完全 一 样 , 但 是 存在 显著 的 不 同 。 在 推理 模型 中 , parameters.spamProbability 
固定 数 。 而 在 学 习 模 型 中 ，parameters.spamProbability 是 一 个 元 素 ; 它 表 示 可 以 取 许 


































































































Tass Narn old 表示 先 验 参 
dictionary: Dictionary, : 5 
parameters: PriorParameters 数 的 元 素 
extends Model(dictionary) { 
// body is exactly the same as for the reasoning model 学 习 模 型 也 扩展 
抽象 Model 类 


使 用 数值 参数 
上 面 的 话题 将 我 们 引入 了 数值 参数 的 讨论 。 在 推理 组 件 中 ， 这 些 参数 由 学 习 结果 提 

















供 。LearnedParameters 定义 模型 所 用 的 所 有 参数 ， 代 码 清单 如 下 。 


C 





程序 清单 3-3 “LearnedParameters 类 


lass LearneqParameters ( 

val spamProbability: Double, 

val hasManyUnusualWordsGivenSpamProbability: Double, 
val hasManyUnusualWordsGivenNormalProbability: Double, 
val unusualWordGivenManyProbability: Double, 

val unusualWordGivenFewProbability: Double, 

val wordGivenSpamProbabilities: Map[String, Doublel], 
val wordGivenNormalProbabilities: Map[String, Double] 














对 于 学 习 组 件 ， 您 需要 指定 先 验 参 数值 。 我 们 的 模型 使 用 复合 Flip 和 Binomial 元 








素 。 第 2 章 中 曾经 介绍 过 , 它们 都 以 一 个 Element[Double] 为 参数 。 这 个 Element[Double] 


是 复合 Flip 和 Binomial 的 参数 。 您 通常 希望 这 个 参数 是 一 个 连续 原子 元 素 。 有 一 类 连 
续 原 子 元 素 称 作 Beta 元 素 ， 很 适合 于 作为 复合 Flip 或 者 Binomial 的 参数 ， 所 以 您 将 使 





























月 





日 它 。 第 4 章 和 第 5 章 中 将 学 习 到 更 多 Beta 元 素 的 有 关 知 识 。 
Beta 原子 元 素 以 两 个 双 精 度 值 为 参数 ,在 下 面 的 代码 中 ,这 些 参 数 的 值 经 过 精心 选择 ， 
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日 .1 尔 ,MJ 而 全 二 HH -全 已 > 日 ， > 
但 是 您 必须 等 到 后 续 的 章节 才能 理解 使 用 这 些 特殊 值 的 原因 。 下 面 是 PriorParameters 类 。 
程序 清单 3-4 ”PriorParameters 类 
class PriorParameters (dictionary: Dictionary) { i 
val spamProbability = Beta(2,3) 垃圾 邮件 先 
某 个 单词 出 现 val wordGivenSpamProbabilities = 
在 垃圾 邮件 或 dictionary.featureWords.map (word => (word, Beta (2,2))) 根据 指定 邮件 是 
者 正常 邮件 中 val wordGivenNormalProbabilities = 垃圾 邮件 还 是 正 
ee dictionary.featureWords.map (word => (word, Beta (2,2))) 常 邮件 它 包 含 
i 寻常 单 讨 
val hasManyUnusualWordsGivenSpamProbability = Beta(2,2) 许多 不 寻常 本 
val hasManyUnusualWordsGivenNormalProbability = Beta(2, 21) 的 先 验 概率 
val unusualWordGivenManyProbability = Beta(2,2) 
val unusualWordGivenFewProbability = Beta(2,7) 在 指定 邮件 是 否 包含 许 
多 不 寻常 单词 的 情况 
val fullParameterList = 全 
让 让 下 ， 某 个 单词 是 不 寻常 
告诉 学 习 算 pa obability :: 单词 的 先 验 概率 
下 了 EB hasManyUnusualWordsGivenSpamProbability :: 单词 的 先 验 概率 
法 所 要 学 习 hasManyUnusualWordsGivenNormalProbability :: 
的 是 那些 参 unusualWordGivenManyProbability :: 
数 。 参见 下 也 unusualWordGivenFewProbability :: 
的 补充 资料 wordqGivenSpamProbabilities.map (Pair => pair._ 2) 
wordGivenNormalProbabilities.map (pair => pair._ 2) 





} 
让 我 们 更 仔细 地 观察 下 面 几 行 : 


val wordGivenSpamProbabilities 
dictionary.featureWords.map (word => (word, 


val wordGivenNormalProbabilities 


dictionary.featur 


每 个 单词 
的 先 验 概率 是 Beta(2,2)。 上 述 代码 创建 一 个 ( 


eWords.map (word => (word, 











征 单词 。 对 于 每 个 特征 单词 ， 这 个 元 素 是 Beta(2,2)。 这 里 有 一 个 





的 Beta 元 素 各 不 相同 。 每 个 单词 出 现在 了 
Scala 注释 

让 我 们 仔 引 

有 人 参数。 代码 














LE 








两 处 值得 注意 。 





























现在 垃圾 邮件 中 都 有 一 定 的 概率 ， 对 了 


Beta (2,2))) 


Beta(l2;2)}) 


E 常 电子 邮件 也 是 如 此 。 每 个 单词 























单词 ,元 素 ) 配对 列表 ， 每 一 项 对 应 一 个 特 
EE 要 的 细节 :每 个 单词 
E 常 或 者 垃圾 邮件 中 的 概率 也 各 不 相同 。 








地 观察 定义 fullParameters 的 代码 。 这 段 代码 创建 一 个 列表 ， 包 含 模型 中 的 所 


首先 看 看 wordGivenNormalProbabilities.map(pair => pair. 2)。 这 一 行 遍历 word- 











GivenNormalProbabilities 中 的 每 个 (和 











回 的 是 垃圾 邮件 相关 的 概率 。 


但 是 返 


词 ， 元 素 ) 配对 。 对 于 每 个 配对 ， 应 用 函数 取 
配对 并 返回 第 二 个 参数 。 换 言 之 ， 返 回 配对 中 的 元 素 。 所 以 ， 这 一 行 代码 返回 
在 正常 邮件 中 概率 相关 的 元 素 。wordGivenSpamProbabilities.map(pair => pair. 2) 与 此 类 人 


得 个 


A 


词 








与 人 有 





E 何 特征 六 
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值得 注意 的 第 二 点 是 所 有 元 素 组 成 列表 的 方式 。 如 果 仔 细 观 察 定义 ， 就 会 看 到 前 5 行 各 包 
含 一 个 元 素 ， 而 最 后 两 行 包含 元 素 的 列表 。 在 Scala 中 , :: 运算 符 取得 元 素 x 和 列表 xs， 将 X 
附加 到 xs 的 前 面 。 同 时 , : :: 运算 符 连 接 两 个 列表 。 所 以 ， 这 段 代 码 创 建 一 个 列表 ， 包 含 所 有 
作为 模型 参数 的 元 素 。 





3.4.5 ”使 用 辅助 知识 

















































































































要 为 特定 的 电子 邮件 构造 一 个 模型 ， 就 需要 知道 哪些 单词 是 特征 单词 。 您 还 需要 知 
道 特定 单词 是 不 是 不 寻常 的 。 这 些 服务 由 数据 结构 Dictionary 提供 。 下 面 是 Dictionary 
类 的 代码 。 在 注释 中 可 以 找到 完整 的 解释 。 
程序 清单 3-5 ”Dictionary 类 
Dictionary 类 维护 用 来 构建 它 的 电子 邮件 数量 ， 
initNumEmails 是 初始 计数 | 从 单词 到 出 现 它们 的 电子 
class Dictionary (initNumEmails: Int) { 邮件 数量 的 映射 
val counts: Map[String Int] = Map() E 
构建 这 个 Dictionary 所 
var numEmails = initNumEmails 用 的 邮件 数量 
def addWord(word: String) { 
counts += word -> (getCount (word) + 1) 递增 Dictionary 计数 ， 
人 为 其 添加 一 个 单词 
def addEmail (email: Email) { 
numEmails += 1 
\ 沁 4 的 > 
for { word <- email.allWords } { 递增 numEmails 添加 电 
addWord (word) 子 邮件 中 的 每 个 单词 ， 将 
} 电子 邮件 加 入 Dictionary 
} 
object OrderByCount extends Ordering[String] { 
def compare (a: String, b: String) = getCount (b) - getCount (a) Dictionary 中 
) 的 单词 , 按照 
def words = counts.keySet.toList.sorted (OrderByCount) 计数 排序 
def nonStopWords = ee 
获得 剩 下 单 words.dropWhile(counts(_) >= 获得 出 现 不 是 过 
本 numEmails * Dictionary.stopWordFraction) 于 频繁 的 单词 
词 中 最 频繁 -人 def featureWords = nonStopWords.take (Dictionary.numFeatures) 
出 现 的 num- 
Features def getCount (word: String) = 获得 出 现 指定 单词 
counts .getOrElse (word, 0) 的 电子 邮件 数量 
def isUnusual (word: String, learning: Boolean) = 
if (learning) getCount (word) <= 1 es : 
确定 单词 是 否 不 寻常 


else getCount (word) <= 0 
} 
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本 





下 面 是 对 上 述 代 码 的 一 些 说 明 。 

图 Dictionary 类 的 参数 initNumEmails 是 字典 中 电子 邮件 的 初始 数量 。 在 推理 组 件 
中 ， 电 子 邮 件 总 数 已 经 从 学 习 组 件 中 得 知 ， 所 以 initNumEmails 被 设置 为 电子 

邮件 的 数量 。 在 学 习 组 件 中 ， 电 子 邮件 一 次 添加 一 个 ， 所 以 initNumEmails 设 

置 为 0。 

DA A A mene ee es 

件 的 时 候 递增 。 电 子 邮件 只 由 学 习 组 件 添加 到 字典 中 。 

国 ”Words 是 字典 中 所 有 单词 的 列表 ， 按 照 计数 排列 ， 从 最 常见 到 最 少见 。 排 序 方 
法 取得 Ordering 参数 ， 该 参数 提供 排序 列表 中 两 个 元 素 的 compare 方法 。 排 序 
由 OrderByCount 对 象 实现 。 

回 ”特征 单词 以 两 个 步 又 组 成 完整 的 单词 集 。 在 第 一 步 中 ， 遍 历 排 序 的 单词 列表 ， 
删除 所 有 过 于 频繁 出 现 的 单词 〈 停 用 词 )。 如 果 在 电子 邮件 中 出 现 的 比例 至 少 达 
到 Dictionary.stopWordFraction ， 则 该 单词 被 视 为 停 用 词 。 人 例如， 如果 
Dictionary.stopWordFraction 为 0.2, 训 练 集 中 有 50 封 电 子 邮 件 ， 停 用 词 就 是 至 少 
出 现在 10 封 电子 邮件 中 的 单词 。 在 第 二 步 中 ， 从 nonStopWords 中 取出 前 
Dictionary.numFeatures 个 单词 。 

加 getCount 使 用 Scala 库 中 的 getOrElse 方法 , getOrElse 方法 在 计数 映射 中 搜索 单 
词 ， 如 果 没 有 找到 则 返回 0。 

加 ”isUnusual 有 某 种 逻辑 。 如 果 某 个 单词 没有 出 现在 任何 其 他 电子 邮件 中 ， 它 被 视 
为 不 寻常 单词 。 在 学 习 中 , 因为 该 单词 出 现在 问题 中 的 电子 邮件 里 , 其 计数 <=1。 
在 推理 中 ， 字 典 仅 包 含 训练 期 间 看 到 的 邮件 ， 所 以 不 寻常 的 单词 完全 不 会 出 现 
在 字典 中 。 
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3.5 ”构建 推理 组 件 


我 们 再 来 看 看 图 3-9 中 重 现 的 推理 组 件 架构 。 您 已 经 看 到 了 电子 邮件 模型 的 各 个 部 
分 、 生 成 过 程 、 来 自学 习 的 参数 以 及 学 习 期 间 生成 的 字典 形式 “知识 ”， 仍 然 需 要 学 习 
特征 提取 程序 、 证 据 的 陈述 和 推理 算法 运行 的 相关 知识 。 

您 使 用 Email 类 提取 特征 和 观察 证 据 。 下 面 是 该 类 的 代码 ， 在 注释 
成 模型 上 的 所 有 工作 之 后 ， 从 电子 邮件 提取 特征 和 观察 证 据 都 很 简单 。 









































































































































加 以 解释 。 完 
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垃圾 邮件 过 滤 推 理 组 件 


特征 提取 程序 


答案 
* 垃圾 邮件 概率 


图 3-9 ”推理 组 件 架 构 重 现 





程序 清单 3-6 “Email 类 


观测 证 据 的 
模型 


表示 当前 是 
在 学 习 还 是 
推理 的 标志 


class Email(file: File) { 


一 全 





用 IO 操作 (没有 展示 ) 获 
得 电子 邮件 中 的 所 有 单词 


def getAllWords() = .… 











val allWords: Set[String] = getAllWords () 
def observeEvidencel 根据 电子 邮件 特征 ， 在 模型 
V 二 
见 测 | 人 方 : 
model: Model, 上 观测 证 据 的 方法 
label: Option[Boolean], | 机 
learning: Boolean 可 能 存在 也 可 能 不 存在 
) { 的 标签 选项 
label match { 
case Some (b) => model.isSpam.observe (Pb) 如 果 标 签 存在 ， 应 用 到 模型 
case None => () 的 isSpam 元 素 
} 
for 4 
(word, element) <- model.hasWordElements 对 每 个 单词 和 模型 中 对 应 


LA | 的 元 素 ， 观 察 电子 邮件 的 
element .observe (allWords.contains (word)) 


; allWords 是 否 包含 该 单词 





val obsNumUnusualWords = 


allWords.filter( (word: String) => 统计 文档 中 不 寻常 
model.dictionary.isUnusual (word，1Learning) ) .size 单词 的 数量 


76 


可 以 将 电子 邮件 分 类 为 正常 邮件 或 者 垃圾 邮件 。 可 以 使 用 任 
使 用 一 个 精确 算法 一 一 变量 消除 法 (VE)。 在 单个 电子 邮 和 但 


我 们 的 要 求 ， 因 为 它 是 精确 


第 3 章 


val unusualWordFraction = 


创建 一 个 概率 编程 应 用 程 





局 


obsNumUnusualWords * Model.binomialNumTrials / allWords.size 


model.numUnusualWords.observe (unusualWordFraction) 


下 面 同 样 是 上 述 代 码 的 一 些 注释 。 





图 ”创建 Email 对 象 时 ， 它 在 其 文 从 

















是 其 出 现 次 数 。 


对 模型 的 numUnusualWords 元 素 
应 用 观测 值 




















参数 上 执行 一 些 IO 操作 ， 获 取 电 子 邮件 中 的 
所 有 单词 。 这 些 单词 保存 在 alWords 字段 中 。 注 意 ，allWords 是 一 个 集合 ， 
您 的 模型 保持 一 致 ， 在 模型 中 您 只 关心 某 个 单词 是 否 出 现在 电子 邮件 中 ， 而 不 
































图 ”observeEvidence 的 参数 label 类 型 为 Option[Boolean]， 表 示 label 是 可 选 的 。 
Scala 的 Option 数据 结构 可 以 取 Some(c) 或 者 None 值 。 在 本 例 中 ， 如 果 电 子 


邮件 有 一 个 已 知 的 分 类 ， 


























c 就 是 该 分 类 。 妇 


























I 果 电 子 邮 件 分 类 未 知 ， 标 签 为 











None。 如 果 标 签 存在 (标签 选项 值 为 Some(c))， 它 将 作为 证 据 应 用 到 


model.is9pam 。 


加 ”文档 中 不 寻常 单词 














字符 串 集合 allWords， 删 除 不 满足 ] 






































的 计数 使 用 了 标准 的 Scala filter 方法 。 这 里 ，filter 方法 取得 


























数 ， 如 果 单 词 是 不 











词 的 字符 串 。 然 后 ， 








方法 以 学 习 标志 作 




















取得 结果 集 大 小 以 得 到 不 寻常 


为 第 二 个 参数 。 




















加 ”最 后 三 行 声 明 一 个 关于 不 寻常 单词 数量 的 观测 值 。 记 住 ，numUnusualWords 是 


| Model.binomialNumTrials 给 出 。 所 








由 一 个 二 项 分 布 定义 的 ， 其 























的 试验 次 数 











其 参数 的 所 有 字符 串 。filter 的 参数 是 一 个 函 
寻常 的 则 返回 true。 所 以 ，filter 方法 删除 所 有 不 是 不 寻常 单 























! 词 的 数量 。 注意 , isUnusual 



































以 ， 您 将 obsNumUnusualWords 按 比 例 缩小 为 Model.binomialNumTrials 的 对 应 


分 数 。 

















现在 , 您 已 经 知道 如 何 提取 特征 和 应 用 证 据 , 并 且 拥 有 了 包含 学 习 到 的 参数 的 模型 ， 






































算法 ， 可 以 得 到 最 但 




















可 推理 算法 完成 分 类 ， 您 将 




















的 答案 。 下 


FE 上， 这 个 算法 速度 能 够 满足 








面 是 代码 。 











程序 清单 3-7 classify 方 法 


def classify( 


) 


dictionary: Dictionary, 


parameters: LearnedParameters, 


fileName: String 
= { 


classify 方法 取得 字典 和 参数 形式 


的 学 习 结 果 ， 以 及 包含 待 分 类 电 


子 邮 件 的 文件 名 称 ， 返 回电 子 邮 











件 是 垃圾 邮件 的 概率 


用 学 习 
结果 创 
建 推理 
模型 
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val file = new File (fileName) 从 fileName 指向 的 文 

val email = new Email (file) 件 创建 Email 对 象 观察 模型 上 关于 这 个 特定 
电子 邮件 的 证 据 。 因 为 您 
不 是 在 学 习 ， 可 选 的 标签 
为 None, 学 习 标 志 为 false 











> val model = new ReasoningModel (dictionary, parameters) 





email.observeEvidence (model, None, false) | 








algorithm.start () isSpam 元 素 为 查询 目标 














val algorithm = VariableElimination (model.isSpam) \ 创建 和 运行 VE 算法 以 模型 的 


val isSpamProbability = algorithm.probability (model.isSpam, true) 





println("Spam probability: " + isSpamProbability) 

， 获得 该 邮件 是 垃 
algorithm.kill () 杀 死 算法 ， 潮 行 清理 。 圾 邮件 的 概率 并 

:得 二 要 走 ; 印 对 应 的 消息 
isSpamProbability 在 获得 需要 查询 的 答 打 中 对 应 的 消息 
案 之 前 ,一 定 不 能 杀 死 
返回 该 电子 邮件 是 垃 算法 
圾 邮件 的 概率 


最 后 ， 推 理应 用 有 一 个 main 方法 。 这 个 方法 在 从 命令 行 运行 推理 应 用 时 被 调用 。 























程序 清单 3-8 Reasoning component main method 


从 第 1 个 命令 行 参 

















def main(args: Array[String]) = { 数 获 得 电子 邮件 文 

val emailFileName = args (0) 件 名 从 第 2 个 命令 行 参数 获得 包 
含 学 习 结 果 的 文件 名 

val learningFileName = args (1) 

val (qictionary parameters) = loadResults (learningFileName) 
用 loadResults 命令 从 学 

Classify(dqictionary parameters, emailFileName) 习 文 件 中 加 载 学 习 结 果 
(未 展示 ) 





使 用 学 习 结 果 分 类 给 定 文件 
中 的 电子 邮件 








我 没有 展示 loadResults 方法 的 代码 ， 因 为 它 是 常规 的 1O， 十 分 见长 。 如 果 对 此 感 


兴趣 ， 请 查看 存储 库 上 的 代码 。 这 些 代码 完成 如 下 任务 。 














1. 读 入 模型 的 常规 参数 ， 如 垃圾 邮件 概率 和 电子 邮件 有 许多 不 寻常 单词 的 概率 。 
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2. 读 入 所 有 单词 和 它们 出 现 的 次 数 。 
3. 读 入 特征 单词 和 每 个 单词 在 垃圾 邮件 或 者 正常 邮件 中 出 现 的 概率 。 
该 文件 的 格式 是 专 为 这 个 特殊 应 用 设计 的 ，Figaro 没有 用 于 学 习 结 果 的 通用 格式 。 







































































3.6 创建 学 习 组 件 


在 定义 模型 、 构 建 推理 组 件 之 后 ， 您 已 经 拥有 了 学 习 组 件 的 大 部 分 。 我 们 再 来 看 看 
图 3-10 中 重 现 的 学 习 组 件 架 构 。 您 已 经 看 到 了 电子 邮件 模型 。 如 前 所 述 ， 学 习 组 件 中 
的 电子 邮件 模型 和 用 于 推理 的 模型 之 间 有 一 个 差异 一 一 学 习 模 型 使 用 先 验 参数 ， 该 参数 
由 用 于 模型 各 个 参数 的 Beta 元 素 组 成 。 





















































































































垃圾 邮件 过 滤 学 习 组 件 





知识 提取 程序 


特征 提取 程序 





证 据 

“所 有 电子 邮件 的 
特征 

“一 些 电子 邮件 的 
正常 /垃圾 邮件 
标签 


学 习 到 的 参数 








图 3-10 ”学 习 组 件 架构 重 现 





您 已 经 看 到 推理 组 件 中 的 特征 提取 程序 以 及 电子 邮件 和 可 选 的 正常 /垃圾 标签 给 定 
时 证 据 的 应 用 方式 。 在 推理 组 件 中 , 您 进行 单一 电子 邮件 的 推理 。 相 反 , 在 学 习 组 件 ， 
您 有 一 个 完整 的 电子 邮件 训练 集 。 特 征 提取 程序 将 提取 所 有 电子 邮件 的 特征 ， 编 辑 每 个 
有 子 邮件 的 证 据 。 它 还 读 取 包 含 训练 集中 某 些 邮 件 标 签 的 Labels 文件 ， 并 在 包含 标签 时 
应 用 对 应 的 证 据 。 
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观察 图 3-10 中 的 架构 ， 可 以 看 到 现在 有 一 个 知识 提取 程序 ， 其 任务 是 从 电子 邮件 
文本 中 得 到 辅助 知识 。 您 已 经 看 到 这 种 知识 由 一 个 字典 组 成 ， 并 且 看 到 Dictionary 类 有 
一 个 addEmail 方法 ， 所 以 垃圾 邮件 过 滤器 中 的 知识 提取 程序 是 很 简单 的 。 您 定义 一 个 
名 为 Dictionary 的 Scala 对 象 。 在 Scala 中 ， 对 象 就 像 只 有 一 个 实例 的 类 。 它 可 用 于 模拟 
Java 静态 方法 。 您 将 定义 一 个 fomEmails 方法 ， 从 Emails 的 Traversable (Traversable 
是 许多 集合 类 型 《如 列表 和 集合 ) 的 Scala 基 类 ) 构造 一 个 Dictionary， 可 以 使 用 
Dictionary.fromEmails(emails) 调 用 该 方法 。 注意, 您 已 经 有 了 Dictionary 类 ,同样 的 名 称 
可 以 同时 用 于 类 和 对 象 。 


程序 清单 3-9 _ Dictionary 对 象 
object Dictionary { 
创建 Dictionary 类 的 一 个 实例 ， 其 


中 电子 邮件 初始 数量 为 0。 将 每 个 
电子 邮件 加 入 该 字典 并 返回 
























































def fromEmails (emails: Traversable[Email]) = { 





val result = new Dictionary (0) 




















for { email <- emails } { result.addEmail (email) } 


result 




















最 后 来 到 学 习 组 件 的 主要 部 分 ， 这 是 应 用 学 习 算 法 学 习 模 型 参数 的 代码 。 您 将 使 用 
的 学 习 算 法 是 期 望 最 大 化 (EM ) 方法 。EM 是 一 种 “元 算法 ” 因为 它 的 内 循环 中 使 用 
常规 的 推理 算法 。 您 将 在 第 12 章 中 学 习 EM 的 各 方面 知识 。 概 要 地 讲 ，EM 从 对 参数 值 
的 猜测 开始 ， 用 这 一 猜测 计算 模型 中 元 素 的 概率 ， 然 后 使 用 这 些 概率 改善 猜测 。 这 一 过 
程 可 以 重复 任意 多 次 ， 这 个 推理 算法 用 于 计算 元 素 概率 的 步骤 中 。 

Figaro 使 用 推理 算法 提供 了 EM 的 实现 。 在 这 个 应 用 中 ,您 将 使 用 置信 传播 (belief 
propagation，BP)。BP 算法 与 VE 类 似 ， 但 是 在 大 模型 上 工作 速度 更 快 。BP 在 元 素 之 间 
传播 消息 ， 并 且 进 行 一 定数 量 的 消息 传播 从 代 。 运 行 包含 BP 的 EM 时 ， 需 要 选择 EM 
和 BP 的 迭代 次 数 。 对 本 应 用 ， 您 将 使 用 默认 值 10， 该 值 在 本 例 中 很 合适 。 

应 用 学 习 算 法 的 代码 在 下 面 的 learnMAP 方法 中 ， 以 先 验 参数 为 参数 ， 返 回 学 习 到 
的 参数 。MAP 是 我 们 使 用 的 学 习 方法 一 一 最 大 后 验方 法 ( maximum a posteriori ) 的 缩 
写 : 根据 数据 ， 返 回 后 验 概率 最 大 化 的 参数 值 。 这 些 MAP 值 由 EM 算法 生成 。 
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程序 清单 3-10 learnMAP 方法 
def learnMAP (params: PriorParameters): LearnedParameters = { 
实例 化 和 运行 使 用 BP 计算 概 


率 的 EM 算法 。 使 用 默认 EM 
和 BP 迭代 次 数 


val algorithm = 





EMWithBP (params.fullParameterList:_ *) 





algorithm.start () 






























































80 第 3 章 创建 一 个 概率 编程 应 用 程序 
val spamProbability = params.spamProbability.MAPValue 
val hasUnusualWordsGivenSpamProbability = 
params.hasManyUnusualWordsGivenSpamProbability.MAPValue 计算 每 个 
val hasUnusualWordsGivenNormalProbability 参数 元 素 
.hasM U alWordsGivenNormalProbability.MAPValue 
params .hasManyUnusu 人 ility u 最 可 能 的 
val unusualWordGivenHasUnusualProbabilit 
Double 值 
对 每 个 特 征 Params .unusualWordGivenManyProbability.MAPValue 
单词 ,计算 最 val unusualWordGivenNotHasUnusualProbability = 
有 可 能 的 params .unusualWordGivenFewProbability.MAPValue 
Double 参数 a ee 
x a val wordGivenSpamProbabilities = 
值 ,该 参数 表 _ ; i 
二 词 出 现 for { (word, param) <- params .wordGivenSpamProbabilities } 
时 本 
不 时 国王 趟 yield (word, param.MAPValue) 
三 二 牛 
在 垃圾 邮 f val wordGivenNormalProbabilities = 
沿 证 
和 正常 邮件 for { (word, param) <- params .wordGivenNormalProbabilities } 
中 的 概率 。 将 yield (word, param.MAPValue) 
这 些 值 放 到 
三 :外 语 i 法 进行 
个 〈 单词 ， algorithm.kill () 3 | 杀 死 算法 进行 清 
二 名 SE js 
值 ) 配对 列 理 。 注 意 ， 在 获 
表 new LearnedParameters!( 





spamProbability, 


hasUnusualWordsGivenSpamProbability, 


hasUnusualWordsGivenNormalProbability, 


unusualWordGivenHasUnusualProbability, 


unusualWordGivenNotHasUnusualProbability, 


wordGivenSpamProbabilities.toMap, 


wordGivenNormalProbabilities.toMap 


} 


最 后 ， 学 习 组 件 有 




















返回 
Parameters 的 
一 个 实例 , 包 
含 所 有 学 习 到 
的 参数 值 





Learned- 








得 MAP 值 之 前 
不 要 杀 死 该 算 
法 ， 因 为 它们 在 
算法 被 杀 死 之 后 
将 失效 























得 3 个 参数 : 















































个 main 方法 ， 在 从 命令 行 运行 学 习 程 序 时 调 | 


包含 训练 集中 所 有 电子 邮件 的 目录 名 称 、 包 含 一 些 训 练 样本 标签 的 文件 名 





j， 这 个 方法 取 

















和 保存 学 习 结果 的 文件 名 。 它 首先 从 输入 文件 中 读 入 信息 








电子 邮件 创建 模型 。 


意 次 。 















































值得 注意 的 是 ， 所 有 电子 邮件 共享 相同 的 参数 。 这 使 从 所 有 


提取 字 





Eh。 接 下 来 ， 为 每 个 











最 后 ， 它 运行 学 习 算 法 并 输出 结果 。 这 些 结果 可 供 推 理 组 件 使 / 
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EE 子 邮 件 学 习 相 同 的 参 























数 成 为 可 能 。 但 是 , 每 个 












































上 都 是 完全 相同 的 。 
下 面 是 main 方法 的 代码 。 


包子 邮件 在 模型 ， 
元 素 不 同 。 如 果 它 们 不 是 各 不 相同 ， 所 有 电子 邮件 对 了 
都 是 垃圾 邮件 ， 或 者 都 是 正常 邮件 。 另 一 方 

















有 不 同 组 元 素 。 例 如 ， 


每 个 电子 邮件 的 isSpam 


















































该 元 素 就 有 相同 值 ， 也 就 是 说 ， 
朋 ， 每 个 不 同 电子 邮件 的 模型 在 结果 和 参数 
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程序 清单 3-11 学 习 组 件 的 main 方法 





def main(args: Array[String]) { 




































































val trainingDirectoryName = args (0) 从 训 练 目 录 读 取 所 有 电子 邮 

val labelFileName = args (1) 件 。 readEmails (没有 展示 ) 

val learningFileName = args (2) 返回 文件 名 到 Email 实例 的 

一 个 映射 
构建 模型 ， 观 察 j val emails = readEmails (trainingDirectoryName) 
据 。 注 意 ， 所 有 模 从 标签 文件 读 取 标签 。readLabels 
型 共享 相同 的 先 (没有 展示 ) 返回 从 文件 名 到 标 
验 参 数 ， 但 是 有 val labels = readLabels (labelFileName) 签 的 映射 。 没 有 标签 的 任何 文 
LearningModel 的 件 不 会 出 现在 这 个 映射 中 
不 同 实例 。 还 要 注 
意 observeEvidence | val dictionary = Dictionary.fromEmails (emails.values) 
的 可 选 标签 参 从 emails 映射 值 
数 ， 您 使 用 的 是 val params = new PriorParameters (dictionary) 构造 字典 
labels.get (flename ) | | al models = 
如 果 没 有 标签 ， | for { (fileName, email) <- emails } 
该 值 为 None， 如 yield { 
果 标 签 是 特定 分 val model = new LearningModel (dictionary, params) 
类 则 为 Some email.observeEvidence (model, labels.get (fileName), true) 
(class ) model 
} 
运行 学 习 算法 
val learnedParameters = learnMAP (params) < == 
saveResults (learningFileName, dictionary, learnedParameters) 
本 用 JO 命令 将 学 习 结果 保存 到 
一 个 文件 ， 供 推理 组 件 使 用 
(没有 展示 ) 
您 已 经 看 到 了 一 个 完整 的 应 用 程序 ， 从 架构 开始 ， 然 后 经 历 模 型 设计 、 推 理 组 件 实现 












































和 学 习 组 件 的 实现 。 现 在 ， 您 应 该 基本 掌握 了 Figaro 的 特性 。 您 已 经 了 解 如 何 构建 一 个 应 
用 ， 有 了 一 定 的 能 力 。 





本 书 的 下 一 部 分 更 深入 地 介绍 建 模 方法 。 首 先 ， 您 将 更 深入 地 理解 概率 模型 和 推 班 
然后 ， 将 研究 各 种 使 用 Figaro 创建 丰富 、 实 用 概率 模型 的 创造 性 方法 。 
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小 结 


加 ”概率 编程 往往 | 























HH 
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该 模型 任意 次 的 








j 在 从 训练 数据 学 习 模 型 ， 然 后 对 特定 实例 应 


























点 用 程序 中 。 


许多 概率 编程 应 用 都 有 类 似 的 架构 ， 包 含 推理 组 件 和 学 习 组 件 。 























82 


3.8 


加 ”推理 和 学 习 组 件 都 使 用 一 个 





辅助 知识 。 


第 3 章 创建 一 


个 概率 编程 应 | 


















































国学 习 组 件 使 用 








学 习 得 到 这 些 





模型 ， 该 模型 包含 生 


程 


本 





成 过 程 的 规范 、 过 程 的 参数 和 























练习 





参数 的 值 , 这 些 值 可 以 供 推理 组 件 使 用 。 


















































在 www.manning.com/books/practical-probabilistic-programming 上 可 以 找到 部 分 练习 


的 解答 。 

















本 章 的 练习 是 高 级 思维 
率 推理 和 学 习 应 用 以 解决 现实 问题 。 当 您 做 这 




















心 模型 的 细节 。 
1. 您 打算 构建 一 









































b) 粗略 描述 推理 

















甚至 没有 明确 地 标示 出 胃 
像 中 包含 的 物体 。 您 决定 以 概率 推 

a) 粗略 描述 搜索 引擎 的 架构 和 物体 识别 器 所 起 的 作用 。 
组 件 的 架构 。 识 别 














文 些 乡 


东 习 时 ， 考 虑 总 体 架构 和 设计 ， 无 需 操 


St 























练习 ， 要 求 您 考虑 如 何 按照 本 章 中 例子 的 思路 ， 设 计 一 个 概 








个 智能 图 像 搜索 引擎 ， 搜 索 包含 感 兴趣 的 物体 的 图 像 ， 这 些 图 像 














p 些 物体 。 您 的 搜索 引擎 将 包含 一 个 物体 识别 器 ， 可 以 标记 出 图 






























































原始 像素 ， 而 是 首先 ] 提取 图 像 的 高 级 











融入 到 架构 中 ? 

















c) 粗略 描述 学 习 组 件 的 架构 。 输 














2. 您 打算 设计 一 




















里 和 学 习 应 用 的 形式 3 


器 的 输入 和 和 输 
特征 ， 如 色彩 








开发 这 个 物体 识别 器 。 




















出 是 什么 ”您 不 希望 识别 器 处 理 
直方 图 


























和 边缘 检测 。 如 何 将 这 些 特征 





























入 和 输出 是 什么 ? 学 习 结果 如 何 传 达 给 推理 组 件 ? 























个 安全 防护 应 用 组 件 ， 其 人 有 


E 务 是 检测 百货 公司 



































您 的 方法 中 ， 异 常 活动 定 义 为 低 概 率 活动 。 


























您 将 学 习 一 个 网 络 活动 的 概率 模型 


的 异常 活动 。 在 
。 每 当 在 





省 





网 络 中 发 现 活动 ， 就 计算 这 种 活动 的 概率 。 如 果 概 率 很 低 ， 就 发 出 异常 的 信号 。 


a) 异常 检测 程序 的 输入 和 输 








Da 











b) 在 这 个 设计 





一 个 概率 模型 。 有 哪些 此 类 变量 ? 在 变量 
c) 您 的 异常 检测 程序 训练 集 包 含 哪 些 内 容 ? 可 








， 您 没有 表示 活动 4 














是 什么 ?如 何 融 入 到 整个 安全 防护 应 用 中 ? 
分 类 的 变量 ， 而 是 在 描述 活动 的 变量 之 上 创建 





























之 间 存 在 哪些 类 


























别 的 关系 和 依赖 性 ? 


以 从 这 些 数据 学 习 到 哪 类 知识 ? 








3. 您 打算 设计 一 个 智能 扑克 玩家 程序 ， 目 标 有 二 : 在 您 第 一 次 与 对 手打 扑克 时 能 






































有 很 好 的 表现 ， 随 着 时 间 的 推移 ， 您 的 表现 会 变 得 更 好 。 
a) 扑克 中 有 两 种 随机 性 的 来 源 ， 发 牌 和 





玩家 的 出 牌 。 















































一 些 变 量 ， 并 用 随机 性 来 源 标 记 。 从 学 习 应 用 的 























和 玩家 出 牌 的 结果 有 所 不 同 ? 














b) 在 扑克 玩家 程 








这 将 帮助 您 在 第 一 次 遇 到 对 手 时 有 出 

















扑克 时 ， 您 希望 学 到 该 玩家 的 倾向 。 








组 件 之 间 需 要 传达 哪些 





信息 ? 














序 中 ， 您 希望 实现 两 种 学 习 。 首 和 9 





自 度 看 














苗 述 与 扑克 玩家 程序 相关 的 
， 为 什么 您 认为 一 个 变量 是 发 牌 




















您 希望 学 习 人 们 的 一 般 玩法 。 
您 重复 地 和 一 位 特定 的 玩家 打 





GC, 
色 的 表现 。 其 次 ， 当 
描述 能 够 执行 这 两 类 























学 习 的 学 习 系 统 架构 。 在 不 同 


第 2 部 分 
编写 概率 程序 




















各 全 2 部 分 介绍 编写 概率 程序 以 表示 您 所 感 兴趣 的 情况 的 相关 知识 这 一 部 分 的 目 

标 不 仅 是 为 您 提供 编写 程序 的 工具 ， 还 要 确保 您 理解 这 些 程序 的 含义 和 选择 

使 用 某 种 编程 技术 的 原因 。 第 4 章 简单 介绍 概率 建 模 和 概率 编程 的 基本 思路 ， 尽管 这 一 

章 中 没有 多 少 程序 ， 但 是 它 能 够 帮助 您 打下 良好 的 基础 ， 理 解 基本 原理 ， 从 而 更 加 接近 

写 概率 程序 的 任务 。 第 5 章 介 绍 两 种 主要 的 建 模 范式 ， 它 们 是 概率 编程 的 核心 : 贝 叶 

斯 网 络 和 马尔 科 夫 网 络 。 第 6 章 ~ 第 8 章 在 第 4 章 和 第 5 章 的 基础 上 介绍 更 高 级 的 建 模 
技术 ， 包 括 使 用 集合 、 面 向 对 象 编程 和 动态 系统 建 模 。 
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第 4 章 概率 模型 和 概率 程序 





本 章 介绍 如 下 内 容 : 

加 ”概率 模型 定义 

加 ”如何 使 用 概率 模型 回答 查询 

四 ”概率 模型 的 成 分 ， 包 括 变 量 、 依 赖 性 、 函 数 形式 和 


数值 参数 
国 ”概率 程序 如 何 表示 概率 模型 的 各 个 成 分 

















本 书 的 第 1 部 分 介绍 了 概率 编程 。 您 已 经 学 到 ， 概 率 推理 系统 使 用 概率 模型 ， 根 据 
证 据 回答 查询 ， 概 率 编程 使 用 程序 表示 概率 模型 。 本 书 的 这 个 部 分 进一步 深入 概率 模型 
的 表现 。 您 将 学 习 到 编写 概率 程序 所 用 的 各 种 编程 技巧 。 
但 是 ， 您 首先 要 拓展 对 概率 模型 以 及 构造 和 使 用 它们 以 回答 查询 的 方法 的 基本 理 
解 。 本 章 就 提供 这 些 理解 。 在 第 1 部 分 中 ， 您 已 经 直观 地 使 用 了 其 中 一 些 思路 ， 现 在 是 
时 候 了 解 这 些 基础 知识 了 。 
本 章 更 深入 地 详 述 第 1 章 的 主题 ， 所 以 如 果 您 认真 阅读 了 第 1 章 ， 对 接 下 来 的 学 习 
就 很 有 益处 。 本 章 还 描述 概率 程序 特别 是 Figaro 程序 ) 如 何 定义 概率 模型 ， 所 以 第 2 
章 中 的 Figaro 基础 知识 也 很 有 帮助 。 
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4.1 


4.1.1 


第 4 章 


概率 模型 定义 


概率 模型 是 编码 对 
图 决定 一 幅 
勃 朗 喜欢 在 画作 





专家 ， 试 


1. 伦 





概率 模型 和 概率 程 
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发 现 的 大 师 真迹 很 稀有 ， 
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Par 
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欢 使 用 ”“ 往 往 ”“ 很 少 ” “多如牛毛 ”。 现 时 知识 很 具体 :“ 这 幅 画 
。 在 概率 建 模 中 ， 您 在 概率 模型 中 





的 肖像 ”“ 这 幅 画 在 … 售 出 ” 
] 到 现时 知识 以 推理 所 处 理 的 
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在 2003 年 
1 一 3 项 是 一 般 知 











1 了 大 片 的 嫩 黄 色 。 
位 水 手 的 肖像 。 














的 一 次 








卖 中 售 出 。 








AAA 


识 。 下 
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股 知 识 
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情况 一 般 知识 的 一 利 
是 伦 勃 朗 的 真迹 还 是 用品 。 您 有 
j 深 颜色 。 

















但 是 厦 品 多 如 牛 毛 。 


如 下 的 信息 。 





Fh 方式。 例如 ， 想 象 


你 
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是 一 位 艺术 


4 一 6 项 是 现时 知识 。 一 般 知 识 以 趋势 的 形式 描述 :“ 喜 












































(包含 在 断言 1 一 3 中 ) 应 
真迹 的 查询 。 























《这 幅 画 是 不 是 伦 勃 朗 的 真迹 ) 是 查询 。 所 以 ， 在 此 您 试 


乡 











使 用 了 ”“ 这 幅 画 
前 码 一 般 知识 ， 并 将 其 
体 情况 。 现 时 知识 也 称 作 证 据 ， 而 您 试图 找 出 的 事 





县..。 
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到 时 襄 4 一 0 

















人 码 的 证 据 ， 以 











将 一 般 知识 表达 为 可 能 世界 上 的 某 种 概率 分 布 


可 能 























界 ; 
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人次 


























后 来 ， 如 果 您 
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可 能 世界 是 一 般 可 能 发 生 的 情况 : 伦 勃 朗 可 能 有 风景 画 。 证 志 
是 一 幅 人 物 画 。 




















另 一 个 可 能 世界 则 是 ， 
能 的 一 种 情况 。 
看 到 的 证 
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图 4-1 展示 了 一 般 领域 知识 的 例子 。 一 般 知 识 说 明 两 个 
性 较 大 的 情况 。 首 先 ， 我 们 讨论 一 下 可 能 的 情况 : 当 
能 的 状态 一 一 每 一 个 状态 称 作 一 个 可 能 世界 。 例 如 ， 
它 是 伦 勃 衣 的 真迹 。 每 个 可 能 
如 ， 伦 勃 朗 的 风景 画 在 
四 是 “这 是 一 幅 人 物 画 


看 到 任何 证 
， 就 会 使 用 该 i 


齐心 


时 头 : 


沼 您 
is 


[位 








而 画 
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例如 ， 在 这 个 情况 中 ， 您 可 以 构想 如 下 可 能 世界 。 

量 。W 一 一 这 幅 画 是 磺 品 。 

量 。 12 一 一 这 幅 画 是 用 深 颜色 描绘 人 物 的 伦 勃 朗 真迹 。 
量 3 一 一 这 幅 画 是 用 鲜艳 颜色 描绘 人 物 的 伦 勃 衣 真 迹 。 
四 ”1W4 一 一 这 幅 画 是 伦 勃 朗 风景 画 的 真迹 。 


将 关于 绘画 和 伦 勃 衣 的 
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答 这 幅 夯 








(1) 可 能 
1 建 概率 模型 时 ， 将 设想 许 
是 夸 品 就 是 一 个 可 
此 界 描 述 看 到 任何 证 据 之 前 
据 之 前 是 一 个 可 
F 据 排除 上 述 可 
描述 现时 知道 的 情 














六 情况 ， 
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我 们 认为 可 能 的 选项 我 们 的 领域 中 事物 一 般 情况 的 知识 


| 
\ 


~ 般 领域 知识 | 


v v 


可 能 性 

。 公交 训 连 汪 是 民 ? 
* 鲜艳 还 是 深 色 ? * 伦 勃 朗 喜欢 深 色 

: 人 。 伦 勃 朗 常常 创作 人 物 画 


趋势 
“ 磋 品 常见 ， 伦 勃 朗 真迹 很 罕见 








4 


图 4-1 一 般 领域 知识 包括 可 能 的 情况 和 可 能 性 较 大 的 情况 


























注意 ， 可 能 世界 是 您 在 看 到 任何 证 据 之 前 认为 可 能 的 情况 。 重 要 的 是 要 理解 ， 证 据 
不 是 概率 模型 的 一 部 分 。 模 型 本 身 描述 一 般 知 识 。 概 率 推理 使 用 编码 一 般 知 识 的 模型 ， 
将 其 应 用 到 关于 某 个 特定 情况 的 证 据 ， 以 便 回 答 关 于 那 种 情况 的 查询 。 因 为 证 据 不 是 模 
型 的 一 部 分 ， 模 型 由 可 能 世界 组 成 ， 所 以 不 能 用 证 据 决 定 可 能 世界 。 因 此 ， 您 会 得 到 
ws 和 wa 这 样 的 可 能 世界 ， 它 们 与 陈述 4 和 5 的 证 据 冲 突 。 

现在 ， 我 们 来 谈 谈 一 般 知 识 中 包含 的 第 二 种 信息 : 可 能 性 较 大 的 情况 。 这 通过 为 每 
个 可 能 世界 指定 一 个 数值 进行 编码 ， 这 个 数值 称 为 概率 。 表 4-1 展示 了 可 能 世界 wi 一 w4 
的 概率 ， 所 有 可 能 世界 的 概率 加 起 来 必须 为 1。 可 能 世界 的 概率 分 配 称 为 概率 分 布 。 这 
个 术语 的 含义 是 为 可 能 世界 分 配 概率 ， 不 管 这 种 分 配 基于 何 种 知识 。 




































































































































































表 4-1 通过 为 可 能 世界 分 配 加 总 为 1 的 概率 ， 定 义 概率 分 布 




















可 能 世界 描述 概 率 
wi 民品 0.9 
w2 伦 勃 衣 、 人 物 、 深 色 0.09 
W3 伦 勃 衣 、 人 物 、 鲜 艳 0.009 
wa 伦 勃 朗 、 风 景 0.001 














图 4-2 总 结 了 取得 一 般 知识 (包括 所 有 设想 的 可 能 性 和 可 能 性 中 的 趋势 )， 并 将 其 
表现 为 可 能 世界 上 概率 分 布 的 过 程 。 这 些 可 能 性 决定 可 能 世界 的 定义 。 然 后 ， 趋 势 〈 可 
能 性 较 大 的 情况 ) 决定 了 每 个 可 能 世界 的 概率 。 
您 已 经 理解 了 可 能 世界 和 概率 分 布 ， 是 时 候 定义 概率 模型 了 。 概 率 模型 是 可 能 世界 
上 概率 分 布 的 正式 表现 形式 。 
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我 们 认为 可 能 的 选项 我 们 的 领域 中 事物 一 般 情况 的 知识 
\ | 


\ | 
AN / 
/ 


可 能 性 趋势 


。 伦 支 朗 的 真迹 还 是 腹 品 ? * 摘 品 常见 ， 伦 勃 朗 真迹 很 罕见 
et . 伦 吉 朗 喜欢 深 色 

。 人 物 还 是 风景 ? * 伦 勃 朗 常常 创 作 人 物 画 

。 哪 一 年 出 售 ? 





可 能 世界 概率 分 布 


i O00. 
2. 伦 勃 朗 、 人 物 、 深 
3. 伦 勃 明 、 人 物 、 鲜 艳 


4. 伦 勃 朗 、 风 景 0.9 0.09 0.009 0.001 





人 “^ 
/ \ 
| | 
可 能 世界 描述 每 个 可 能 世界 都 有 
看 到 证 据 之 前 一 个 表示 其 可 能 性 
认为 可 能 的 所 大 小 的 概率 。 概 率 
有 情况 的 总 和 为 1 














图 4-2 ”领域 知识 以 可 能 世界 上 的 概率 分 布 的 形式 表现 。 在 图 中 ， 概 率 由 可 能 世界 的 大 小 表示 


上 述 定义 并 不 是 说 概率 模型 就 是 一 个 概率 分 布 , 而 是 说 明 它 是 这 样 一 个 分 布 的 表现 
形式 。 概 率 分 布 本 身 是 一 个 数学 概念 ， 明 确 地 向 每 个 可 能 世界 指定 一 个 数字 。 可 能 世界 
的 数量 可 能 很 大 ， 分 布 必须 为 每 个 可 能 世界 指定 一 个 概率 。 这 种 表现 形式 可 以 写 下 来 并 
加 以 处 理 。 最 简单 的 概率 模型 就 是 一 个 明确 列 出 可 能 世界 概率 的 表格 ， 但 是 正如 您 在 本 
书 中 看 到 的 ， 即 使 在 可 能 世界 的 数量 很 大 时 ， 模 型 也 可 以 相当 简洁 。 上 述 的 定义 确实 说 
到 ， 概 率 模型 必须 是 正式 的 表现 形式 。 即 使 没有 明确 地 创建 概率 ， 也 应 该 用 清晰 的 规则 
规定 每 个 可 能 世界 概率 的 定义 形式 。 

虽然 我 已 经 定义 了 一 个 概率 模型 ， 但 是 还 没有 描述 创建 该 模型 的 方法 一 一 如 何 指定 
可 能 世界 和 概率 。 概 率 建 模 的 艺术 和 科学 都 与 以 精确 、 简 洁 的 方式 表现 概率 分 布 有 关 。 
您 将 在 本 书 中 学 到 这 方面 的 所 有 方法 。 

您 已 经 了 解 了 概率 分 布 对 于 概率 建 模 的 重要 性 ， 下 面 我 们 更 仔细 地 研究 这 一 概念 。 
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4.1.2 ”进一步 探索 概率 分 布 


除了 告诉 您 各 个 可 能 世界 的 概率 之 外 ， 概 率 分 布 还 可 以 告诉 您 不 同事 实 的 概率 。 任 
何 指定 的 事实 都 包含 在 某 些 可 能 世界 中 ， 而 不 包含 在 其 他 可 能 世界 。 为 了 获得 该 事实 的 

















4.1 ”概率 模型 定义 89 





概率 ， 您 可 以 将 包含 该 事实 的 可 能 世界 的 概率 累加 起 来 。 

例如 ， 考虑 “这 幅 画 是 伦 勃 朗 的 真迹 ”这 一 事实 。 这 一 事实 包含 在 ww、w3s 和 wa 中 ， 
但 不 包含 在 wi 中 ， 它 的 概率 等 于 包含 该 事实 的 可 能 世界 概率 之 和 ， 也 就 是 wa、w3 和 wa 
的 概率 总 和 : 0.09 + 0.009 + 0.001 = 0.1。 因 此 ， 您 可 以 说 这 幅 画 是 伦 勃 朗 真 迹 的 概率 为 
0.1 或 10%。 结 论 的 标准 标记 方式 为 PRembrandb = 0.1， 如 图 4-3 所 示 。 

在 您 看 到 任何 证 据 之 前 ， 这 种 概率 分 布 称 为 先 验 概率 分 布 。 顾 名 思 义 ， 它 先 于 任何 
现时 因素 的 考虑 (在 看 见证 据 之 前 )。 与 此 相反 ， 后 验 概率 分 布 是 考虑 证 据 之 后 得 到 的 
分 布 。 同 样 ， 上 一 段 中 计算 的 P(Rembrandt) 称 作 该 事实 的 先 验 概率 ， 而 在 观察 证 据 之 后 
将 得 到 后 验 概率 。 您 将 在 下 一 小 节 中 看 到 如 何 将 证 据 考 虑 在 内 ， 获 得 后 验 概 率 。 


Y 


4-3” 某 个 事实 的 概率 是 与 该 事实 一 致 的 可 能 世界 的 概率 总 和 


列举 可 能 世界 并 指定 概率 的 方法 很 多 。 出 现在 表 4-1 并 在 表 4-2 中 再 次 出 现 的 概率 
分 布 恰好 符合 本 节 开 始 时 项 目 1、2 和 3 描述 的 一 般 知 识 。 项 目 3 说 明 ， 硒 品 比 伦 勃 朗 
的 真迹 更 常见 ， 确 实 ， 可 能 世界 wi 中 帮 品 为 “ 真 ”， 其 概率 为 0.9， 而 在 其 他 3 个 可 能 
世界 中 “ 伦 勃 朗 真迹 ”为 “ 真 ” 其 总 概率 仅 为 0.1。 项 目 1 说 明 伦 勃 朗 喜欢 使 用 深 色 。 
如 果 观 察 表格 ， 就 会 看 到 w，〈 伦 勃 朗 、 人 物 、 深 色 ) 的 概率 10 倍 于 wa《〈 伦 勃 衣 、 人 物 、 
鲜艳 )。 尽 管 剩 下 的 可 能 世界 ws 不 说 明 任何 关于 颜色 的 情况 ， 但 是 它 在 先 验 分 布 中 概率 
极 低 ， 仅 为 0.001。 最 后 ， 项 目 2 说 明 伦 勃 朗 常 常 创作 人 物 画 。w 和 ws 与 “这 幅 画 是 人 
物 画 ”的 事实 一 致 ， 所 以 根据 我 们 的 模型 ， 这 幅 画 是 伦 勃 朗 真 迹 且 是 人 物 画 的 概率 等 于 
w 和 ws 概率 的 总 和 一 一 0.099。 与 此 同时 ， 这 幅 画 是 伦 勃 朗 所 作 的 风景 画 的 概率 仅 为 
0.001， 只 有 人 物 画 的 1/99。 









































































































































本 
这 幅 画 是 伦 勃 朗 真迹 的 概率 


@o。 


0.09+ 0.009+ 0.001 =0.1 














可 能 世界 
1. 族 品 
2. 伦 勃 朗 、 人 物 、 深 色 


CO 


0.09 0.009 0.001 


3. 伦 勃 朗 、 人 物 、 鲜 艳 
4. 伦 勃 朗 、 风 景 
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表 4-2 重 温 我 们 的 概率 模型 。 辜 品 的 可 能 性 远大 于 伦 勃 朗 真迹 的 可 能 性 ， 所 以 w 的 概率 超过 其 
他 3 个 可 能 世界 的 总 和 。 同 样 ， 如 果 画 家 是 伦 勃 朗 ， 所 创作 的 更 可 能 是 人 物 画 而 非 风 景 画 ， 深 色 
的 人 物 画 比 鲜艳 的 更 有 可 能 

















可 能 世界 描 述 概 率 
WW 民品 0.9 
wa 伦 勃 朗 、 人 物 、 深 色 0.09 
Ww 伦 勃 明 、 人 物 、 鲜 艳 0.009 
wa 伦 勃 朗 、 风 景 0.001 
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在 这 个 例子 中 ， 您 不 用 任何 真正 的 方法 就 可 以 组 成 一 个 看 似 合理 的 模型 ， 但 是 在 更 
复杂 的 情况 下 ， 这 就 更 难 了 。 在 4.3 节 ， 您 将 开始 研究 更 结构 化 的 概率 分 布 表示 方法 。 
但 是 ,在 进入 模型 表示 的 细节 之 前 ， 您 必须 首先 理解 说 明 如 何 使 用 模型 推理 特定 情 
况 的 基本 术语 。 
4.2， 使 用 概率 模型 回答 查询 
您 已 经 以 可 能 世界 上 概率 分 布 的 形式 编码 了 一 般 知 识 。 如 何 将 模型 应 用 到 证 据 ( 现 
时 知识 ) 以 回答 查询 ”例如 ， 您 知道 这 幅 画 上 有 一 大 片 嫩 黄色 ， 是 水 手 的 肖像 ， 在 2003 
年 的 一 次 拍卖 中 售 出 。 这 些 都 是 您 的 证 据 。 您 希望 知道 这 幅 画 是 不 是 伦 勃 妆 的 真迹 
那 是 您 的 查询 。 如 何 使 用 模型 ， 按 照 证 据 推理 出 查询 的 答案 ? 表 4-3 总 结 了 您 的 知识 
状态 。 
表 4-3 在 这 个 情况 中 组 成 知识 的 模型 和 证 据 。 每 部 分 证 据 都 用 其 与 模型 的 相关 性 注释 
模 型 证 据 
厦 品 0.9 大 片 的 嫩 黄 色 ==> 鲜 艳 
伦 勃 衣 、 人 物 画 、 深 色 0.09 水 手 的 肖像 ==> 人 物 画 
伦 勃 朗 、 人 物 画 、 鲜 艳 0.009 2003 年 出 售 (无关) 
伦 勃 朗 、 风 景 0.001 
4.2.1 ”根据 证 据 调 节 以 产生 后 验 概率 分 布 
使 用 概率 分 布 以 考虑 证 据 的 过 程 称 作 根据 证 据 调 节 。 调 节 的 结果 也 是 一 个 概率 分 
布 ， 称 作 后 验 概率 分 布 。 
调节 过 程 很 简单 ， 由 两 个 步骤 组 成 。 
1， 消 除 所 有 与 证 据 不 一 致 的 可 能 世界 。 
观察 您 的 可 能 世界 ， 可 以 看 到 其 中 两 个 与 证 据 不 一 致 : w,( 使 用 深 色 ) 和 w4〈 风 景 
画 )。 所 以 您 “ 删 去 ”这 些 可 能 世界 ， 将 它们 的 概率 指定 为 0。 这 幅 画 在 2003 年 的 拍卖 
上 售 出 的 事实 不 能 排除 任何 可 能 世界 ， 这 部 分 证 据 与 模型 无 关 。 








2. 向 上 调整 剩余 可 能 
这 称 作 概 率 的 规格 化 。 在 规格 化 时 








这 
疮 。 





界 的 概率 使 其 总 和 为 1。 
， 剩 余 的 可 能 世界 必须 吸收 被 排除 可 能 世界 的 概 











每 个 可 能 世界 吸收 的 概率 数量 与 其 











ws 先 验 概率 的 100 倍 ， 被 排除 的 可 能 世界 吸 | 
确保 了 吸收 之 后 ，wi 的 概率 仍然 是 ws 的 100 倍 。 








先 验 概 率 成 正比 。 例 如 ， 
六 到 wi 的 概率 也 是 吸收 到 ws 的 100 倍 。 这 








大 














为 wi 的 先 验 概 率 是 





























正确 规格 化 概率 的 数学 方法 很 简单 。 








首先 ， 累 加 与 证 据 一 致 、 未 被 排除 的 可 能 世界 








只 
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概率 。 这 个 总 和 称 为 规格 化 因子 。 在 我 们 的 例子 中 ， 规 格 化 因子 是 0.9+0.009=0.909。 然 
后 ， 将 每 个 一 致 可 能 世界 的 概率 除 以 规格 化 因子 。 这 将 保证 概率 总 和 为 1 且 维 持 比 例 。 
这 一 过 程 的 结果 是 表 4-4 中 的 概率 分 布 。 
















































































表 4-4 ”根据 证 据 调 节 之 后 得 到 的 后 验 概率 分 布 。 首 先 ， 将 不 一 致 的 可 能 世界 概率 减 为 0。 然后， 
将 剩余 的 每 个 概率 除 以 一 致 可 能 世界 的 概率 总 和 ， 进 行规 格 化 。 这 确保 概率 的 总 和 为 1 
可 能 世界 描 述 概 率 
wi 硒 品 0.9/10.909 = 0.9901 
wa 伦 勃 朗 、 人 物 画 、 深 色 0 
W3 伦 勃 衣 、 人 物 画 、 鲜 艳 0.009 / 0.909 = 0.0099 
wa 伦 勃 衣 、 风 景 0 











证 据 的 调节 由 排除 与 证 据 不 一 致 的 可 能 世界 和 规格 化 其 余 概率 组 成 。 根 据 证 据 调 节 
之 后 得 到 的 概率 分 布 称 作 后 验 概率 分 布 ， 因 为 它 在 看 到 证 据 之 后 出 现 。 图 4-4 描述 了 从 


有 可 

































































先 验 概 率 分 布 开 始 ， 根 据 证 据 调节 并 获得 后 验 概率 分 布 的 过 程 。 
1 看 到 证 据 之 前 的 概率 分 布 


\ 


2. 证 据 编码 这 种 情 








4. 伦 勃 朗 、 风 景 画 0.009 ”0.001 







襄 的 现时 知识 
用 概率 分 布 
\ 1. 履 品 
\ 2. 伦 勃 衣 、 人 物 画 、 深 色 9 () 
\ 3. 伦 勃 朗 、 人 物 画 、 旬 9 9 









证 据 
"大 片 嫩 黄色 
*“ 喝 醉 的 水 手 ” 

"在 2003 年 的 拍卖 中 售 出 




















后 验 概 率 分 布 












| 可 能 世界 
1. 厅 品 
pe 3. 伦 勃 朗 、 人 物 画 、 鲜 艳 
/ 生 伦 勃 朗 一 风景 本 0.9/(0.9+0.009) 0.009/(0.9 + 0.009) 
| | | 
4. 根据 证 据 调节 之 5. 我 们 规格 化 其 余 
ne 后 的 概率 分 布 可 能 世界 的 要 
i 其 总 和 为 1 


世界 
4-4 ”根据 证 据 调节 。 根 据 证 据 ， 排 除 不 一 致 的 可 能 世界 并 规格 化 剩余 可 能 世界 的 概率 ,使 之 总 和 为 1 





局 
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4.2.2 ”回答 查询 


现在 ， 您 拥有 了 后 验 概率 分 布 ， 如 何 回答 查询 ? 在 我 们 的 例子 中 ， 查 询 是 “画家 是 
不 是 伦 勃 朗 ”。 在 前 一 小 节 中 我 说 过 ， 概 率 分 布 不 仅 指定 单独 可 能 世界 的 概率 ， 还 指出 
是 





以 


























任何 包含 在 某 些 可 能 世界 而 不 包含 在 其 他 可 能 世界 的 事实 的 概率 。 例 如 ，ws 是 与 画家 
伦 勃 朗 一 致 且 后 验 概 率 大 于 0 的 可 能 世界 。 所 以 画家 是 伦 勃 朗 的 后 验 概 率 是 0.0099。 
您 为 根据 证 据 得 出 的 查询 答案 使 用 如 下 的 标记 法 : P〈 伦 勃 朗 | 嫩 黄 色 ,， 水 手 肖 像 ， 
售 于 2003 年 ) = 0.0099。 在 这 个 标记 法 中 ， 管 道 符号 〈|) 将 查询 与 证 据 分 隔 开 。 管 道 符 
号 左 侧 是 您 想 知道 概率 的 事物 。 右 侧 是 您 得 到 的 证 据 。 这 种 标记 法 也 称 作 条 件 概率 ， 因 
为 它 表 示 根 据 某 些 证 据 调 节 过 的 查询 概率 。 图 4-5 展示 了 这 样 构建 条 件 概率 陈述 的 方法 。 
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查询 证 据 


~ 


v 
P(Rembrandt | bright yellow, picture of sailor, sold in 2003) = 0.0099 
全 个 


调节 符号 概率 
图 4-5 条 件 概 率 陈述 的 结构 





踊 


告 : 如 果 您 只 观察 标记 法 ， 似 乎 可 以 对 认为 不 可 能 的 证 据 (概率 为 0) 进行 调节 。 例如， 如 果 
您 尝试 观察 “这 幅 画 是 伦 描 朗 的 静物 画 ” 的 证 据 , 将 发 生 什么 情况 ?假定 您 希望 查询 画作 
的 鲜艳 度 。 使 用 条 件 概率 标记 法 ， 可 以 尝试 计算 P (鲜艳 静物 ， 伦 勃 朗 )。 但 是 “这 幅 画 
是 伦 勃 朗 的 静物 画 ” 的 证 据 概率 为 0， 因为 它 与 所 有 可 能 世界 不 一 致 。 当 您 根据 证 据 调节 
时 , 将 排除 所 有 可 能 世界 。 因此 ,您 无 法 产生 后 验 概率 分 布 , 也 不 能 对 “这 幅 画 是 鲜艳 的 ” 
的 概率 做 出 任何 结论 .根据 不 可 能 的 证 据 调 节 耗 费 了 许多 精力 ,结论 却 是 应 该 避免 这 么 做 。 
如 果 在 不 可 能 的 证 据 上 进行 调节 ， 结 果 将 不 可 预测 ， 在 不 同 的 概率 编程 系统 上 各 不 相 
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图 4-6 组 合 前 两 节 的 所 有 思路 ， 组 成 概率 建 模 的 全 景 。 您 使 用 一 般 领 域 知识 编码 可 
能 世界 上 的 概率 分 布 。 然后, 您 的 现时 知识 以 证 据 的 形式 出 现 , 用 于 产生 后 验 概率 分 布 。 
最 后 ， 使 用 后 验 概率 分 布 ， 按 照 证 据 回 答 关 于 感 兴趣 事实 的 查询 。 

关键 定义 

可 能 世界 一 一 您 认为 可 能 的 所 有 状态 。 























概率 分 布 一 一 为 每 个 可 能 世界 分 配 0 一 !1 的 概率 ， 所 有 概率 总 和 为 1 。 
概率 模型 一 一 可 能 世界 上 概率 分 布 的 正规 表现 形式 。 
证 据 一 一 关于 特定 情况 的 知识 。 
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先 验 概率 分 布 一 一 看 到 任何 证 据 之 前 的 概率 分 布 。 

根据 证 据 调 节 一 一 将 证 据 应 用 到 某 个 概率 分 布 的 过 程 。 

后 验 概率 分 布 一 一 看 到 证 据 之 后 的 概率 分 布 ， 调 节 的 结果 。 

规格 化 一 一 按 比 例 调整 一 组 数字 使 其 总 和 为 1 的 过 程 。 

现在 ， 您 已 经 知道 概率 模型 的 定义 以 及 回答 查询 的 基本 原理 。 但 是 ， 如 何 将 这 些 理 
论 应 用 到 实践 中 呢 ? 可 能 世界 的 数量 可 能 很 大 ; 检查 每 个 可 能 世界 ， 查 看 其 是 否 与 证 据 
一 致 是 不 实际 的 。 概 率 推理 算法 的 目标 是 高 效 地 回答 查询 。 

















1. 我 们 认为 可 能 的 选项 2. 领域 中 一 般 情况 的 知识 






一 般 领 域 知识 










可 能 性 趋势 

“ 伦 勃 朗 真迹 还 是 硕 品 ? “ 顾 品 常见 ， 伦 勃 朗 真迹 很 少 
"鲜艳 还 是 深 色 ? “ 伦 勃 朗 喜 欢 深 色 

“人 物 画 还 是 风景 画 ? “ 伦 勃 朗 常常 创作 人 物 画 


“ 哪 一 年 售 出 的 ? 


3. 伦 勃 明 、 人 物 画 、 鲜 艳 
4. 伦 勃 衣 、 风 景 画 


证 据 3. 看 到 证 据 之 前 的 概率 分 布 
"大 片 嫩 黄色 

““ 喝 醇 的 水 手 ” 

“在 2003 年 的 拍卖 中 售 出 

根据 证 据 得 出 的 “这 幅 
re 可 能 世界 画 是 伦 勃 朗 真迹 "概率 


G) 0.009/(0.9 + 0.009) 


二 伦 雪 央 一 大 物 册 一 深 色 
3. 伦 勃 朗 、 人 物 画 、 鲜 艳 =0.0099 
二 从 基 几 RS 


4. 证 据 编码 这 种 情 5. 根据 证 据 调节 之 6. 根据 证 据 ， 某 个 事实 
况 的 现时 知识 后 的 概率 分 布 的 概率 是 与 事实 一 至 
EE 


图 4-6 ”概率 模型 使 用 方法 全 貌 
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4.2.3 ”使 用 概率 推理 


概率 推理 的 主要 目标 是 根据 证 据 ， 计算 感 兴趣 的 变量 上 的 后 验 概率 分 布 。 在 我 们 的 
例子 中 ， 排 除 与 证 据 不 符 的 可 能 世界 、 规 格 化 其 余 可 能 世界 的 概率 很 简单 。 但 是 在 实践 
中 ， 对 于 真正 的 问题 ， 可 能 世界 的 数量 巨大 ， 模 型 中 的 变量 呈 指 数 式 上 升 。 因 此 ， 您 其 
至 无 法 写 下 所 有 可 能 世界 ， 更 别 说 计算 它们 的 概率 了 。 您 需要 一 个 概率 推理 算法 ， 可 以 
高 效 地 计算 后 验 概 率 。Figaro 等 概率 编程 系统 提供 了 此 类 算法 。 





















































































































































































































































这 些 算法 基于 概率 推理 的 三 大 法 则 : 链 式 法 则 、 全 概率 公式 和 贝 叶 斯 法 则 。 您 将 在 
第 3 部 分 中 学 习 这 些 法 则 的 细节 。 现 在 ， 您 只 需 知道 概率 编程 推理 算法 是 实施 这 些 法 则 
和 其 他 派生 法 则 的 机 械 方法 。 这 些 算法 设计 用 于 和 定义 它们 的 概率 编程 语言 结构 一 起 工 
作 ， 所 以 可 用 于 以 这 些 语言 编写 的 复杂 程序 中 。 这 是 概率 编程 的 好 处 之 一 : 如 果 可 以 用 
编程 语言 编写 程序 ， 就 可 以 对 该 程序 应 用 推理 算法 。 













































































在 实践 中 ， 尽 管 原理 上 算法 有 效 ， 但 是 概率 推理 可 能 很 困难 。 对 于 常规 程序 来 说 ， 
很 容易 写 出 具有 指数 级 复杂 度 、 在 您 所 关心 的 问题 上 花费 很 长 时 间 的 程序 。 类 似 地 ， 也 
很 可 能 写 出 推理 算法 为 产生 精确 答案 而 长 时 间 运 行 的 概率 程序 。 对 于 许多 典型 使 用 来 
说 ， 可 以 编写 自己 的 程序 ， 推 理 将 按照 您 需要 的 方式 进行 。 但 是 ， 在 复杂 的 大 问题 上 ， 
即使 最 好 、 最 高 效 的 算法 也 可 能 需要 长 时 间 才 能 得 出 答案 。 

概率 推理 算法 可 以 是 精确 的 ， 也 可 以 是 近似 的 。 精 确 意 味 着 它们 计算 的 后 验 概率 从 
数学 上 遵循 推理 的 3 大 法 则 。 精 确 推理 代价 可 能 很 高 ， 所 以 需要 近似 算法 。 近 似 算法 的 
结果 通常 接近 于 正确 答案 ， 但 不 总 能 提供 保证 。 

概率 编程 系统 往往 为 给 定 的 问题 提供 可 选择 的 算法 ， 包 括 精确 算法 和 近似 算法 。 有 
些 算法 可 以 不 同 的 方式 配置 。 此 外 ， 表 达 模 型 的 方式 可 能 对 推理 的 难度 产生 显著 影响 。 
所 以 ， 如 果 您 打算 使 用 概率 编程 语言 构建 大 型 的 复杂 模型 ， 值 得 花 时 间 学 习 推理 的 工作 
原理 ， 获 得 帮助 您 选择 更 有 效 解决 自身 问题 最 佳 推 理 算法 的 技术 。 本 书 的 第 3 部 分 将 帮 
助 您 获得 这 方面 的 知识 。 
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4.3 ”概率 模型 的 组 成 部 分 


概率 模型 是 概率 分 布 的 正式 表现 形式 ， 这 类 表现 形式 可 能 多 种 多 样 。 明 确 概 率 的 表 
格 是 一 种 表现 形式 , 但 是 它 仅 对 最 简单 的 问题 适用 。 本 节 介 绍 使 用 4 种 成 分 构建 概率 模 
型 的 通用 、 实 际 方法 。 这 不 是 构建 模型 的 唯一 方法 ， 但 是 得 到 了 广泛 的 应 用 ， 也 是 概率 
编程 的 基础 。 

您 已 经 在 第 3 章 的 垃圾 过 滤器 模型 中 看 到 了 这 4 种 成 分 ,但 是 在 此 将 了 解 它 们 的 
节 。 模 型 有 4 种 成 分 。 
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四 ”涉及 的 变量 ， 如 一 幅 画 是 伦 勃 朗 真迹 还 是 帮 品 。 

量变 量 之 间 的 依赖 性 。 例 如 ， 画 作 的 鲜艳 度 取决 于 它 是 不 是 伦 勃 朗 的 画 。 

四 ”这 些 依赖 性 采用 的 函数 形式 。 例 如 ,“ 这 幅 画 是 伦 勃 朗 的 真迹 ”的 模型 可 以 一 定 
权重 的 “ 措 硬 币 ” 结 果 表 示 。 

四 函数 形式 的 数值 参数 ， 如 用 于 确定 画作 是 不 是 伦 勃 朗 真迹 的 硬币 权重 。 

在 下 面 的 几 个 小 节 中 ， 您 将 看 到 如 何 指定 以 上 成 分 。 

































































































































































第 一 步 是 决定 模型 中 所 要 包含 的 变量 。 正如 编程 语言 中 一 样 , 变量 可 以 取 不 同 的 值 。 
可 能 世界 为 每 个 变量 指定 一 个 特定 值 。 在 任何 给 定 的 可 能 世界 中 ， 变 量 有 一 个 特定 值 ， 
但 是 在 其 他 可 能 世界 中 , 它 可 能 取 不 同 的 值 。 虽 然 指定 变量 只 是 构建 概率 模型 的 第 一 步 ， 
但 是 和 编程 中 一 样 需要 很 多 创意 。 您 所 做 出 的 决策 对 模型 的 效率 至 关 重 要 。 
在 4.1 节 的 例子 中 ， 我 们 指定 的 可 能 世界 隐 含 了 如 下 变量 。 
看 Rembrandt〈 伦 勃 衣 ): 这 幅 画 是 伦 勃 朗 的 真迹 还 是 帮 品 ? 
加 ”Brightness 鲜艳 度 ): 它 使 用 鲜艳 的 颜色 还 是 深 色 ? 
国 Subject〈 主 题 ): 是 人 物 画 还 是 风景 画 ? 
注意 ， 我 们 没有 包含 表示 其 是 否 在 拍卖 上 出 售 的 变量 。 尽 管 该 变量 是 现时 知识 的 一 
部 分 ， 但 是 我 们 认为 它 不 相关 。 
每 个 变量 都 有 类 型 ， 定 义 了 可 能 取 值 的 种 类 。 连 续 变 量 取 实数 值 〈 如 双 精 度 变量 ) 
2 高 度 可 以 厘米 计量 。 您 还 可 以 使 用 枚 举 、 整 数 或 者 结构 化 变量 (如 列表 )。 不 连 
续 的 变量 称 作 离散 变量 。 到 目前 为 止 看 到 的 所 有 变量 都 是 离散 变量 ， 更 准确 地 说 ， 是 枚 
举 变 量 ， 枚 举 类 型 变量 往往 称 作 分 类 变量 。 变 量 还 有 一 个 值 域 ， 即 该 变量 可 能 取 的 一 组 
值 。 例 如 ， 某 个 变量 可 能 是 整数 变量 ， 但 是 您 认为 它 只 可 能 取 1 和 10 之 间 的 值 ， 所 以 
它 的 值 域 就 是 整数 1 一 10。 表 4-5 列 出 了 在 伦 勃 朗 示例 中 可 能 使 用 的 变量 、 类 型 和 可 能 
取 值 。 






















































































el 






























































































































































































































































































































































































































































表 4-5 变量、 类 型 和 可 能 取 值 示例 





















































变 量 类 型 示 例 值 
Rembrandt 布尔 型 true, false 
Size 枚 举 small、medium、large 
Height 实数 25.3, 14.9, 68.24 
Last year sold 整数 1937, 2003 
All years sold 整数 列表 List(1937), List(1969, 2003) 
概率 模型 中 的 变量 和 概率 程序 中 的 变量 之 间 存 在 明显 的 关系 。 在 Figaro 中 ,程序 ! 
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这 Pe TE -下 到 >» r| ¥ A = 

的 元 素 对 应 于 模型 中 的 变量 ， 其 值 类 型 是 模型 中 对 应 类 型 的 计算 机 表现 形式 。 例 如 ， 您 
可 以 这 样 定 义 : 

val rembrandt: Element[Boolean] = // definition goes here 

val size: Element[Symbol] = // definition goes here 

val height: Element [Double] = // definition goes here 

val lastYearSold: Element [Int] = // definition goes here 

val allYearsSold: Element[List[Integer]] = // definition goes here 




















给 定 一 组 变量 ， 构 造 可 能 世界 的 最 简 方 式 是 创建 一 个 表格 ,每 列 代 表 一 个 变量 ， 

















行 代表 变量 的 一 个 可 能 值 。 例 如 ， 表 4-6 展示 了 伦 勃 朗 、 鲜 艳 度 和 主题 变量 的 
世界 。 

















8 个 可 能 


表 4-6 伦 勃 朗 、 鲜 艳 度 和 主题 变量 的 可 能 世界 。 每 个 可 能 世界 代表 这 些 变量 值 的 一 个 组 合 


| 
伦 勃 朗 鲜 






























































艳 度 主 是 
wi 假 深 色 人 物 画 
wa 假 深 色 风景 画 
ws 人 鲜艳 人 物 夯 
wa 假 鲜艳 风景 画 
ws 真 深 色 人 物 夯 
真 深 色 风景 画 
真 鲜艳 人 物 画 
ws 真 鲜艳 风景 画 























4.3.2 ”依赖 性 
我 已 经 声明 ,依赖 性 可 用 于 为 概率 分 布 提供 结构 。 依 赖 性 描述 了 变量 相互 关联 的 方 



























































式 。 在 所 有 可 能 世界 上 的 大 量 概率 分 布 直观 地 分 解 为 描述 其 关系 的 局 部 模型 组 
回 到 我 们 的 例子 ， 现 在 您 有 3 个 变量 : Rembrandt〈 伦 勃 朋 )、 Brightness 






























































成 部 分 。 
(亮度 ) 


和 Subject (主题 )。 这 些 变量 如 何 关 联 ? 在 概率 模型 中 ,变量 之 间 的 关系 由 依赖 性 描述 ， 
依赖 性 描述 了 一 个 变量 值 依赖 于 其 他 变量 值 的 方式 。 独 立 关 系 和 依赖 性 同样 重要 ， 前 者 






















































































描述 了 一 个 变量 的 值 完全 不 依赖 男 一 个 变量 值 的 情况 。 
理解 独立 关系 















































如 果 知 道 一 个 变量 的 有 关 情 况 ， 不 能 得 出 另 一 个 变量 的 任何 有 关 情 况 ， 那 么 这 两 个 















































变量 是 独立 的 。 例 如 ， 想 象 一 下 您 有 另 一 个 变量 Size〈 可 能 值 为 大 、 中 、 小 )， 表 示 男 
作 的 大 小 “Size 和 Brightness 是 相互 独立 的 ”有 何 含义 ? 这 一 说 法 的 含义 很 明确 。 









































考虑 Brightness 的 任何 特定 值 一 一 比如 Dark( 深 色 )。 您 知道 它 的 9 












































E 验 概率 


P(Brightness = Dark)。 现 在 考虑 Size 的 可 能 值 一 一 比如 Large (大 )。 您 打算 提出 一 个 问 
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题 : 知道 Size = Large 是 否 能 够 提供 与 Brightness = Dark 相关 的 新 信息 。 对 于 这 个 问题 ， 
证 据 是 Size = Large， 查 询 是 Brightness = Dark， 因 为 那 是 您 想 知 道 概率 的 事实 。 如 果 您 
根据 证 据 Size = Large 调节 模型 , 就 可 以 得 到 Dark 的 后 验 概 率 P(Brightness = Dark | Size 
=Large)。 现 在 ， 如 果 Brightness 和 Size 是 独立 的 ， 后 验 概率 必然 和 先 验 概率 相同 。 告 
诉 您 画作 的 尺寸 为 “大 ”丝毫 不 能 改变 您 对 画作 是 深 色 的 看 法 。 如 果 Brightness 和 Size 
是 独立 的 ， 不 管 选择 Brightness 和 Size 的 哪 一 个 值 ， 这 一 点 都 保持 不 变 。 下 面 的 等 式 必 
须 成 立 。 理 解 这 些 等 式 的 方法 描述 参见 图 4-7。 

P(Brightness = Dark | Size = Large) = P(Brightness = Dark) 

P(Brightness = Dark | Size = Medium) = P(Brightness = Dark) 

P(Brightness = Dark | Size = Small) = P(Brightness = Dark) 

P(Brightness = Bright | Size = Large) = P(Brightness = Bright) 

P(Brightness = Bright | Size = Medium) = P(Brightness = Bright) 

P(Brightness = Bright | Size = Small) = P(Brightness = Bright) 

独立 性 是 一 个 对 称 的 属性 。 如 果 您 知道 ， 告 诉 您 画作 的 大 小 不 能 提供 关于 其 鲜艳 度 
的 任何 新 信息 ， 反 方向 上 也 是 如 此 : 告诉 您 画作 的 鲜艳 度 ， 也 不 能 给 画作 的 尺寸 提供 任 
何 新 信息 。 数 学 标记 如 下 : 

P(Brightness = Dark | Size = Large) = P(Brightness = Dark) 

隐 含 : 

P(Size = Large | Brightness = Dark) = P(Size = Large) 














































































































































































































在 尺寸 为 “大 ”的 证 据 下 ， 在 没有 任何 证 据 的 情况 下 ， 
鲜艳 度 为 “ 深 色 ”的 概率 鲜艳 度 为 “ 深 色 ” 的 概率 
一 人 、 
P(Brightness = Dark | Size = Large) = P(Brightness = Dark) 
查询 调节 符号 证 据 





图 4-7 ”描述 独立 关系 的 等 式 分 解 











独立 性 等 式 如 图 4-8 所 示 。 您 首先 从 Size 和 Brightness 上 的 先 验 概率 分 布 入 手 。 
Brightness 为 Dark 的 概率 是 Brightness = Dark 的 可 能 世界 概率 的 总 和 一 一 0.8。 然 后 ， 观 
察 证 据 Size = Small 并 排除 不 一 致 的 世界 。 通 过 规格 化 与 证 据 一 致 的 可 能 世界 概率 ， 获 
得 Brightness = Dark 的 后 验 概率 。 后 验 概率 为 0.8， 与 观察 证 据 之 前 相同 。 如 果 观 察 先 
验 分 布 就 可 以 看 出 ， 对 于 任何 Size 值 ，Brightness 为 Dark 的 可 能 世界 概率 与 Brightness 
为 Bright 的 可 能 世界 概率 之 间 的 比率 相同 ， 均 为 4: 1。 因 为 比率 相同 ， 观 察 到 某 个 Size 
的 特定 值 不 会 改变 观察 到 该 证 据 之 前 的 Dark 与 Bright 比率 。 
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Brightness Probability 
Small Dark 
Small Bright 
Medium Dark 
Medium Bright 


Large Dark 
Large Bright 






Brightness 
Dark 
Bright 


Evidence Small 
。 Size = Small Small 











理解 条 件 独立 性 


下 一 步 是 考虑 两 个 变量 在 已 知 条 件 下 的 关系 。 某 些 情况 下 ， 两 个 变量 在 没有 附加 
息 时 可 能 不 是 相互 独立 的 ， 但 是 在 附加 信息 出 现时 可 能 相互 独立 。 例 如 ， 假 定 风 景 画 更 
有 可 能 采用 大 尺寸 和 鲜艳 。 那 么 ，Size 和 Brightness 就 不 是 独立 的 ， 因 为 告诉 您 画作 尺 


























P(Brightness = Dark) = 
0.2+0.2+0.4=0.8 


P(Brightness = Dark | Size = Small) = 
0.2/(0.2+0.05)= 0.8 


图 4-8 独立 性 : Brightness 为 Dark 的 概率 在 观察 到 Size 为 Small 之 后 没有 变化 
































寸 较 大 ， 就 会 增加 画作 是 风景 画 的 置信 和 度 ， 









































这 也 就 使 其 更 可 能 是 
果 您 已 经 知道 画作 是 一 幅 风 景 画 ,告诉 您 画作 的 尺寸 较 大 不 能 提供 它 是 什么 类 型 








鲜艳 的 。 另 一 方面 ， 如 


QI 

















es 


新 信 











轧 ， 所 以 不 会 改变 它 颜 色 较 亮 的 观点 。 在 这 种 情况 下 ， 您 可 以 说 在 Subject (主题) 
=Landscape〈 风 景 画 ) 的 情况 下 ，Brightness 和 Size 有 条 件 独 立 。 上 述 情况 可 以 用 如 下 





等 式 表示 : 
P(Brightness = Dark | Size = Small, Subj 








ect = Landscape) = 


P(Brightness = Dark | Subject = Landscape) 
您 可 以 对 Brightness、Size 和 Subject 的 每 个 可 能 值得 到 类 似 的 等 式 。 




















= Dark | Subject = Landscape) = 0.3。 根 据 我 们 的 先 验 分 布 ， 风 景 画 为 深 色 的 可 能 性 低 于 





1 人 


要 理解 这 个 等 式 ， 可 以 想象 图 4-9 中 的 两 步 过 程 。 
变量 Subject、Size 和 Brightness 上 有 一 个 先 验 概率 分 布 。 根 和 
= Dark) = 0.7。 此 后 , 您 观察 到 证 据 Subject = Landscape, 并 得 至 














| 后 验 




















台 ， 您 对 画作 一 无 所 知 ， 在 
局 这 个 概率 分 布 , P(Brightness 


概率 分 布 P(Brightness 


























人 物 画 ， 所 以 Subject = Landscape 这 一 证 于 
































届 会 降低 Brightness = Dark 的 置信 和 度 。 这 就 是 
穿 门 所 在 : 这 个 后 验 分 布 变 成 下 一 部 分 证 据 的 先 验 分 布 ， 现 在 您 观察 到 Size = Small， 
得 到 一 个 新 的 后 验 分 布 。 根 据 这 个 新 的 分 布 , P(Brightness = Dark | Size = Small, Subject = 
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Landscape) = 0.3， 所 以 在 知道 Subject = Landscape 的 情况 下 ， 额 外 的 证 据 Size = Small 
没有 提供 关于 Brightness 的 任何 新 信息 。 如 果 仔 细 观 察 先 验 分 布 ， 就 可 以 发 现 表 格 的 下 
半 部 分 中 Subject = Landscape，Dark 和 Bright 的 比率 始终 为 3:7， 而 在 上 半 部 分 Subject 
= People， 这 一 比率 始终 为 4: 1。 两 个 比率 不 同 ， 但 是 在 固定 的 Subject 下 ， 比 率 是 固定 
的 ， 所 以 在 Subject 给 定 的 情况 下 ，Size 和 Brightness 是 有 条 件 独 立 的 。 


Evidence 
* Size = Small 





























P(Brightness = Dark | Subject = 
Landscape, Size = Small) = 
0.015/(0.015 + 0.035) = 

0.3 













































Subject Size Brightness Probability Brightness Probability 
People Small Dark 

People Small Bright 0.04 

People Medium Dark 0.16 

People Medium Bright 0.04 

People Large Dark 0.32 

People Large Bright 0.08 : 
Landscape Small Dark 0.015 Landscape Small Dark 0.015 
Landscape Small Bright 0.035 Landscape Small Bright 0.035 
Landscape Medium Dark 0.03 t 

Landscape Medium Bright 0.07 

Landscape Large Dark 0.015 

Landscape Large Bright 





P(Brightness = Dark) = 
0.16 + 0.16 + 0.32 + 
0.015+0.03+0.015=0.7 





Subject Size Brightness Probability 





Evidence 
* Subject = Landscape 


P(Brightness = Dark| Landscape Dark 
Subject = Landscape)= 


Landscape Bright 
(0.015 + 0.03 + 0.015)/ andscape rig 
(0.015 +0.03+0.015+ Landscape Dark 
0.07 + 0.035 + 0.035)= Te a 
03 


Landscape Dark 


Landscape Bright 
图 4-9 ”条件 独立 性 :证 据 Subject=Landscape 改变 Brightness =Dark 的 置信 度 , 但 是 后 续 的 证 据 Size 























=Small 不 提供 任何 新 信息 
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在 概率 程序 中 编码 依赖 性 











第 5 章 详 细 介绍 依赖 性 的 主题 。 
概要 介绍 。 




















该 章 使 用 的 主要 表现 形式 是 贝 叶 斯 网 络 ， 我 将 在 此 


本 书 的 主题 之 一 是 变量 之 间 的 依赖 性 可 以 编码 为 一 个 网 络 ， 在 这 个 网 络 中 ， 如 果 父 














变量 的 值 影响 子 变量 的 值 ， 则 从 父 变量 到 子 变量 存在 








个 箭头 。 在 我 们 的 例子 中 ， 您 可 











以 想象 画家 首先 选择 主题 〈Subject)， 该 变量 影响 尺寸 (Size) 和 鲜艳 度 (Brightness)， 








但 是 Size 和 Brightness 相互 之 间 没 




















了 影响。 这 些 关 系 可 以 用 图 4-10 中 描述 的 网 络 结构 
捕捉 。 简 言 之 ， 贝 叶 斯 网 络 中 的 边 是 单 向 的 ;从 父 节 点 指向 子 节点 ， 它 通常 表示 父 变量 





























以 某 种 方式 导致 子 变量 的 变化 。 第 5 章 提供 了 这 种 因果 关系 的 细节 以 及 贝 叶 斯 网 络 结构 











的 绘制 方法 。 








尺寸 取决 于 主题 








图 4-10 在 Subject 给 定 的 情况 








、 


鲜艳 度 取决 于 主题 ， 
但 是 不 取决 于 尺寸 


， 编 码 Size 和 Brightness 
之 间 条 件 独立 性 的 简单 贝 叶 斯 网 络 结构 





以 这 种 风格 展示 变量 间 依 赖 性 的 网 络 称 作 贝 叶 斯 网 络 。 网 络 中 的 节点 对 应 于 模型 中 








的 变量 ， 如 果 第 一 个 变量 影响 第 二 个 变量 ， 











两 者 之 间 有 一条 边 。 在 第 5 章 中 您 将 看 到 ， 
贝 叶 斯 网 络 中 编码 了 许多 关于 模型 中 依赖 性 的 信息 。 











贝 叶 斯 网 络 结构 自然 地 转化 为 概率 程序 的 结构 。 如 果 一 个 变量 是 网 络 中 另外 一 个 变 














量 的 父 变量 ， 则 第 








个 变量 影响 第 二 个 变量 


考虑 一 下 常规 的 程序 ， 如 果 第 二 个 变量 将 














第 一 个 变量 用 于 自身 的 定义 中 ， 那 么 第 一 个 变量 就 会 影响 第 二 个 变量 。 概 率 编程 中 也 是 








如 此 : 如 果 贝 叶 斯 网 络 中 的 一 个 变量 和 另 





























个 变量 之 间 有 一 条 边 ， 则 第 二 个 变量 将 把 第 











个 变量 用 在 自身 的 定义 中 。 这 是 概率 建 模 和 编程 之 间 的 基本 联系 ， 它 使 概率 编程 成 为 











可 能 。 


























下 的 程序 框架 ; 


val subject = // definition 
val size = // definition uses subject 


val brightness = // definition uses subject 

















里 解 了 这 一 点 ， 在 概率 程序 中 表示 依赖 性 就 很 简单 了 。 在 Figaro 中 ， 您 可 以 使 用 如 





4.3.3 
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重要 的 是 ，brightness 的 定义 中 没有 使 用 size。 在 第 5 章 中 您 将 学 习 到 ， 这 能 够 捕捉 





























给 定 subject 的 情况 下 ，brightness 与 size 的 条 件 独 立 性 。 


























此 时 ， 您 有 了 自己 的 变量 ， 并 且 了 解 了 用 网 络 形式 描述 的 依赖 性 。 尽 管 我 们 已 经 说 






























































过 ， 变 量 依赖 于 其 他 变量 ， 但 是 您 还 不 了 解 它 们 的 依赖 性 以 及 采用 的 形式 。 这 通过 下 面 











两 个 成 分 实现 : 函数 形式 和 数值 参数 。 


函数 形式 


















































好 了 ， 您 已 经 选择 了 变量 ， 并 且 以 网 络 形式 描述 了 依赖 性 。 我 曾经 说 过 ， 依 赖 性 是 
此 


























用 简单 组 件 定义 许多 变量 上 的 概率 分 布 的 关键 。 这 些 组 件 必须 仅 用 关联 变量 描述 变量 的 



































特征 。 下 一 步 是 定义 描述 这 些 关 系 特征 的 组 件 采取 的 形式 。 在 图 4-10 的 示例 

































































;这 一 





步 包 括 指定 Subject 变量 值 的 选择 方式 ， 以 及 使 用 该 值 选择 Size 和 Brightness 变量 值 的 

















方式 。 
基本 函数 形式 





我 们 从 第 一 个 问题 开始 : 指定 Subject 值 的 选择 方式 。 因 为 Subject 不 依赖 于 任何 其 




















全 























他 变量 ， 您 所 需要 做 的 只 是 指定 Subject 值 的 概率 分 布 。 在 我 们 的 例子 














枚 举 类 型 ， 可 取 值 为 People (人物 画 ) 和 Landscape〈 风 景 画 )， 所 以 必 
































，Subject 采用 
须 指定 People 


一 





和 Landscape 的 概率 。 明 确 指定 概率 是 表达 概率 分 布 的 最 简 方 式 。 但 是 在 有 许多 可 取 值 























或 者 明确 的 概率 难以 直接 提出 时 ， 这 种 明确 指定 可 能 无 法 实现 。 















































作为 蔡 代 ， 您 往往 采用 一 组 标准 函数 形式 中 的 一 种 指定 概率 分 布 。 一 般 来 说 ， 可 用 





















































的 形式 取决 于 变量 的 类 型 。 每 种 形式 都 有 特定 的 属性 ， 用 于 特定 的 用 例 。 
形式 的 使 用 方法 ， 以 便 选 择 适合 于 应 用 的 形式 ， 是 很 重要 的 。 




















































































































理解 不 同 函数 








例如 ， 连 续 变 量 的 常见 函数 形式 之 一 是 正 态 分 布 ， 另 一 种 是 指数 分 布 。 对 于 整数 变 
量 ， 二 项 和 几何 分 布 是 两 种 常见 形式 。 大 部 分 情况 下 ， 本 书 都 不 过 多 地 讨论 单独 函数 





式 的 细节 。 这 方面 的 材料 很 多 ， 大 部 分 函数 形式 在 维基 百科 上 都 有 很 好 的 文章 。 















































在 第 2 章 中 已 经 看 到 ，Figaro 可 表现 许多 常见 函数 形式 。 在 表现 单 变 量 的 函数 形式 


























时 ,通常 使 用 原子 元 素 。 例 如 ，Select 表现 明确 概率 指定 ，Normal 表现 给 定 均值 和 方差 
下 的 连续 正 态 分 布 ，Binomial 表现 特定 试验 次 数 和 每 次 试验 成 功 概率 下 的 二 项 分 布 。 

















条 件 概率 分 布 





现在 ， 其 他 两 个 变量 Size 和 Brightness 是 如 何 依赖 Subject 的 ?您 不 能 仅仅 为 它们 
指定 一 个 基本 函数 形式 ， 还 必须 指定 它们 的 概率 分 布 在 不 同 Subject 值 下 如 何 变化 。 为 








此 , 您 定义 一 个 条 件 概率 分 布 (conditional probability distribution, CPD ) 。 





您 将 为 Subject 


的 每 个 值 定义 Size 上 的 一 个 概率 分 布 。 例 如 ， 您 将 指定 Subject = Landscape 条 件 下 Size 



































= Large 的 概率 ， 标 记 为 P(Size = Large | Subject = Landscape)。 最 简 身 
Subject 每 个 可 能 值 对 应 的 Size 函数 形式 。 











SS 








的 方式 是 指定 





第 4 章 概率 模型 


J 和 概率 程序 




















在 我 们 的 例子 : 
可 以 使 / 
形式 ， 说 明 CPD 所 属 变量 以 及 条 件 变量 。 
Subject， 显 示 在 左 列 ， 
种 情况 下 ， 
一 列 。 这 里 ，Size 的 3 个 可 能 值 Small、 


























































































































每 个 可 能 值 由 CPD 表 中 的 一 行 表 示 。 在 我 们 的 例子 
和 Landscape， 各 由 一 行 表示 。 如 果 有 不 止 一 个 条 件 变量 ， 








，Size 是 一 个 枚 举 变量 ， 所 以 函数 
j 表 4-7 所 示 的 表格 呈现 给 定 Subject 下 Size 的 CPD。 我 使 用 


。 您 可 以 想象 一 个 变量 依赖 于 多 于 
这 些 变量 都 显示 在 左 侧 。 右 侧 是 定义 CPD 的 变量 ， 
Medium 和 Large 各 有 一 列 。 然 后 ， 条 件 变量 
， 条 件 变量 有 两 个 可 能 值 People 











区 式 自然 是 明确 指定 的 概率 。 











您 
4 





CPD 表格 的 标 














条 件 变量 在 左 侧 ， 本 例 中 只 有 一 个 条 件 变 























个 变量 的 











依赖 性 模型 。 在 





























该 变量 











下 


























这 些 3 


的 每 个 可 能 值 有 
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三 
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jr 



































一 行 。 最 后 ， 在 表格 中 与 i 行 j 列 对 应 的 单 














变量 在 第 i 行 指定 的 条 件 变 量 值 下 取得 j 列 值 的 概率 。 伤 








元 ! 
































如， 在 People 行 Small 列 : 





量 值 的 每 个 组 合 占有 
有 一 个 概率 输入 项 ， 表 示 定 义 了 CPD 的 




















人 夺 


义 的 是 P(Size = Small | Subject = People)。 我 为 这 些 概率 提供 了 p1 一 p6 的 标签 。 这 些 标 











































































































































































































































































































签 用 于 后 面 的 代码 片段 ， 您 可 以 用 它 对 照 表格 和 代码 。 
表 4-7 给 定 Subject 情况 下 ，Size 的 CPD 形式 
Size 
Subject 
Small Medium Large 
People pl = P(Size = Small | | p2 = P(Size = Medium | | p3 = PGSize = Large | 
Subject = People) Subject = People) Subject = People) 
Landscape p4 = P(Size = Small | | p5 = P(Size = Medium | | p6 = P(Size = Large | 
Subject = Landscape) Subject = Landscape) Subject = Landscape) 
在 Figaro 中 , CPD 可 以 使 用 复合 元 素 实现 。 复合 元 素 精确 地 指定 变量 依赖 于 其 他 变 
量 的 方式 。 第 2 章 中 ， 您 已 经 看 到 Chain 是 用 于 定义 从 条 件 变 量 值 到 受制 约 变量 上 元 素 
的 函数 的 通用 复合 元 素 。 这 个 函数 可 以 是 您 喜欢 的 任何 函数 ， 所 以 Chain 是 表示 CPD 
的 最 通用 Figaro 概念 。 但 是 还 存在 许多 更 特殊 的 形式 。 
其 中 一 种 有 用 的 形式 很 自然 地 称 作 CPD。Figaro CPD 形式 可 以 这 样 应 用 到 我 们 的 例 
子 中: 
val size = CPD(subJject， 





"People -> Select (pl -> 'small, 
'landscape -> Select (P4 -> 'small, 


2 


) 











Scala 变量 pl 一 p6 表示 数值 化 的 概率 ， 





























medium, p3 -> 'large), 
p5 -> 'medium, p6 -> 'large) 
您 将 在 下 一 小 节 中 学 到 。 


注意 : 引号 ,表示 使 用 的 是 Scala 符号 类 型 。 符 号 是 某 种 事物 的 特有 名 称 。 例 如，'small 符号 等 
有 符号 。 除了 比较 相等 之 外 ， 对 符号 不 能 进行 





同 于 该 符号 的 每 次 出 现 ， 而 不 同 于 其 他 所 
很 多 其 他 的 处 理 。 当 您 希望 为 一 个 变量 


如 果 您 有 超过 两 个 变量 ， 也 可 以 使 用 







































































CPD。 例 如 ， 想 象 有 











与 画作 是 否 伦 勃 朗 真 迹 及 其 主题 有 关 。 可 以 编写 如 下 形式 : 





创建 特定 的 值 集 时 ， 符 号 很 有 用 .。 


个 Price (价格 ) 变 


上 
里 
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val price = CPD (rembrandt, subject, 
(false, 'people) -> Flip(p1), 
(false, 'landscape) -> Flip(p2), 
(true, 'people) -> Flip(p3), 
(true, 'landscape) -> Flip(p4) 

) 


CPD 构造 程序 有 两 组 参数 : 

1. 被 定义 变量 的 父 变量 一 一 最 多 可 以 有 5 个 父 变量 。 

2. 子 句 数量 一 一 这 个 数量 根据 父 变 量 的 可 能 值 而 变化 。 每 个 子 句 包含 父 变 量 的 一 
种 情况 和 一 个 结果 元 素 。 例 如 ， 在 size 的 CPD 中 ， 第 一 个 子 句 是 情况 'people 和 结果 元 
素 Select(p1 -> 'small, p2 -> 'medium, p3 -> large)。 这 个 子 句 的 含义 是 ， 如 果 subject 的 值 
为 people， 则 size 的 值 根据 Select 元 素 进行 选择 。 如 果 只 有 一 个 父 变量 ， 情 况 就 是 父 变 
量 的 一 个 值 。 如 果 父 变量 超过 一 个 ， 情 况 就 是 父 变量 值 的 元 组 。 例 如 ， 在 price 的 CPD 
中 ， 第 一 个 子 句 的 情况 是 (false, people)， 也 就 是 说 ， 这 个 子 句 适用 于 reambrandt 取 false 
值 、subject 取 'people 值 的 情况 。 

在 Figaro 中 指定 依赖 性 的 其 他 方法 

Figaro 提供 了 男 一 个 构造 函数 RichCPD， 可 以 比 提 供 完 整 表格 更 简洁 的 方式 表示 
CPD。RichCPD 和 CPD 类 似 ， 但 是 每 个 子 句 规定 每 个 父 变量 的 一 组 可 能 值 而 不 是 单 
值 。 您 可 以 三 种 方式 之 一 指定 这 些 值 集 : (1) OneOf(values) 指 定 父 变量 的 值 必须 为 给 定 
值 之 一 ， 该 子 句 才 适 用 ; (2) NoneOf(values) 规 定 父 变量 的 值 不 能 为 给 定 的 值 ，(3) * 意 
味 着 父 变 量 可 以 取 任何 值 ， 该 子 句 将 适用 ， 假 定 其 他 父 变量 有 合适 的 值 。 在 父 变量 取 一 
组 特定 的 值 时 ， 选 中 第 一 个 匹配 的 子 句 并 为 元 素 定 义 分 布 。 

RichCPD 是 更 高 级 的 结构 ， 在 CPD 涉及 多 个 父 变量 时 很 有 用 。 一 般 来 说 ，CPD 
的 行 数 等 于 每 个 父 变量 可 能 取 值 数 量 的 乘积 。 当 您 有 3 个 父 变量 , 可 能 取 值 分 别 为 2、3、 
4 个 时 ，CPD 的 行 数 为 2x 3 x4= 24。 可 以 看 到 ， 在 有 更 多 父 变量 或 者 父 变量 的 可 能 取 
值 更 多 时 ， 说 明 这 些 情况 就 会 变 得 很 乏味 。RichCPD 就 是 设计 用 于 在 这 些 情况 下 提供 帮 

















































































































































































































































































































































































































































































































助 的 。 
下 面 是 一 个 例子 : 有 两 个 父 变量 
的 RichCPD 
wal el = Seleot (0 -3 Lr id 2 Or 3 > 
val x2 = Flip(0.6) 为 1 或 2，x2 为 任 
val y = RichCPD (x1l, x2, 何 值 的 匹配 情况 
(OneOof (1, 2), *) -> Flip(0.1), | 
(NoneOf (4), Oneof (false)) -> Flip(0.7), 
(大 *) 一 > Flip(0.9)) xl 为 4 之 外 的 任何 值 ， 
匹配 一 切 的 x2 为 false 的 匹配 情况 
默认 情况 





警告 ; CPD 和 RichCPD 中 的 情况 必须 覆盖 有 正 概 率 的 所 有 父 变 量 可 能 值 ， 这 一 点 很 重要 。 否 
则 ，Figaro 不 知道 遇 到 没有 匹配 任何 子 名 的 值 时 该 怎么 办 。 对 于 CPD， 这 意味 着 您 必须 
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提供 完整 的 表格 。 对 于 RichCPD， 可 以 在 最 后 





每 个 父 变 量 使 用 *。 


CPD 和 RichCPD 是 编写 依赖 性 的 两 种 明 胡 
的 印象 : 这 是 Figaro 中 编写 依赖 性 的 唯一 方 


希望 您 有 这 村 








第 4 章 ， 概率 模型 和 概 


率 程序 











方法 ， 在 




















的 方法 。 在 Figaro 
的 如 下 要 点 。 























， 指 定 依赖 性 的 两 种 通用 方法 是 使 用 








国 Apply 取得 





系列 参数 元 素 和 一 个 函数 ， 其 结果 











给 定 函 数 应 ) 
Chain 取得 一 








j 到 参数 值 上 的 结 





。 上 基 












































日 
AE 















































Chain 











的 结果 是 


























数 以 获 
果 的 依赖 性 。 
图 ”许多 元 素 〈( 如 
到 目前 为 止 ， 您 已 
































经 了 解 了 函数 形式 ， 并 


得 新 元 素 ， 从 该 元 素 生 成 一 个 数值 。 


If 和 复合 Normal) 用 Chain 定义 。 





寻 此 ，Chain 

















大 








个 元 素 ， 该 元 素 的 值 是 闪 
此 ，Apply 定义 了 从 参数 到 结果 的 依赖 性 。 
个 参数 元 素 和 一 个 函数 ， 该 函数 取 该 参数 值 并 返 
个 元 素 ， 该 元 素 值 通过 如 下 途径 生成 : 取得 


使 用 “默认 ” 子 句 ， 正 如 上 面 的 例子 ， 对 


使 用 离散 变量 时 很 有 用 。 我 不 
法 ; 它 人 
Apply 和 Chain 。 








] 只 是 两 种 简单 、 明 确 
回顾 第 2 章 














是 将 












































口 





一 个 新 元 素 。 
参数 值 ， 应 用 
也 定义 了 从 参数 到 












































由 区 








yo 





口 


























知道 Figaro 提供 









































如 果 没 有 用 二 





4.3.4 数值 参数 
概率 模型 ， 





























些 值 对 函数 








填充 其 参数 的 数值 , 它们 就 


式 是 合法 的 。 例 如 ， 为 





=} 
只 候 





的 最 后 一 个 成 分 是 数值 参数 。 从 概念 上 讲 ， 这 是 
择 的 任何 函数 形式 都 有 特定 的 参数 ， 必 须 为 那些 参数 填 入 数值 。 约 束 之 一 是 必须 确保 那 
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此 ， 它 们 也 定义 了 依赖 性 。 
t 了 多 种 函数 形式 。 但 








日 
征 














J 
钾 ， 您 ; 











空 壳 。 下 























组 值 指定 


明 古 














千石 

















究 这 些 数值 的 提供 。 














最 简单 的 部 分 。 您 所 选 








的 概率 时 ， 这 些 概 率 的 总 和 必须 为 





1。 表 4-8 展示 了 给 定 Subject 的 情况 下 填写 完成 的 Size CPD。 注 意 ， 每 一 行 的 总 和 都 为 
1。 这 是 必然 的 ， 因 为 每 一 行 都 是 Size 上 的 一 个 概率 分 布 。 








表 4-8 在 Subject 给 定 的 情况 下 ， 填 写 完 整 的 Size CPD 










































































Size 
Subject 
Small Medium Large 
People 0.5 0.4 0.1 
Landscape 0.1 0.6 0.3 
尽管 从 概念 上 很 简单 ， 但 是 填 入 这 些 数值 可 能 是 实践 中 最 难 的 步骤 。 根 据 专业 知识 
估算 概率 是 一 种 挑战 。 回 顾 本 章 开 头 ， 关 于 画作 的 可 能 趋势 有 一 些 综述 : 伦 勃 朗 “ 喜 欢 ” 























在 其 作 


品 
HH 





使 用 深 色 ; 他 “常常 ”创作 人 物 
“多 如 牛 毛 ”。 如 果 您 是 某 个 主题 上 的 专家 ， 提 日 
趋势 上 加 上 数字 就 不 同 了 。 伦 勃 四 

















和 
是 


画 ; 








这 样 的 一 般 趋势 术 


欢 ” 在 作品 中 使 用 深 1 


P(Brightness = Dark | Rembrandt = True) = 0.73? 很 难说 。 


新 发 现 的 大 师 真 迹 很 “稀少 ”， 而 硒 品 











日 对 容易 ， 但 是 在 这 些 
色 是 不 是 意味 着 


CC 











4.4 


在 这 方面 ， 有 两 个 好 消息 。 首 多 
数字 化 的 概率 
P(Brightness = Dark | Rembrandt = True) = 0.77， 您 做 日 











所 不 同 ， 碍 询 























4.4 生成 过 程 
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E， 在 许多 情况 下 ， 得 到 精确 的 数字 并 不 关键 。 即 使 
的 答案 通常 也 大 约 相同 。 例 如 ， 如 果菜 个 模型 说 明 
的 关于 画 











作 是 否 硕 品 的 预测 和 概 











率 为 0.73 时 大 约 相同 。 但 是 ， 对 于 接近 于 0 的 极 小 概率 就 不 是 如 此 了 。 将 概率 从 0.001 


改 为 0.0001 可 


总 ES 


























能 导致 结论 的 彻底 改变 。 在 极端 条 们 








力 





用 ， 专 家 们 有 了 时候 更 容易 提供 
男 一 个 好 消息 是 这 些 数字 通常 可 以 从 数据 














例子 。 值 得 小 心 的 是 ， 正 如 
先 验 参数 。 但 是 这 些 先 验 参数 可 











参数 的 值 对 最 终 参 数值 影响 很 小 。 而 且 ， 具 备 指定 先 验 参数 值 的 


提供 了 使 响 学 习 过 程 的 机 会 。 如 果 您 没 











那 一 章 中 所 见 ， 即 使 从 数据 ， 
能 做 出 最 低 限 度 的 假设 ， 在 合理 








这 样 的 数量 级 。 





F 下， 这 种 数量 级 的 差别 很 重要 。 另 一 





























学 习 到 。 您 已 经 在 第 3 诗 











看 到 了 


个 


























学 习 参 数 时 ， 也 需要 指定 一 些 












































专业 知识 影 








参数 值 ， 不 从 任何 方向 影响 学 习 。 
， 您 将 学 习 到 参数 学 习 的 基本 原理 。 























专业 攻 
































的 数据 量 下 ， 这 些 先 验 
能 力 是 件 好 事 ， 因 为 它 
I 识 ， 可 以 指定 中 性 的 先 验 



































在 第 9 章 和 第 12 章 ， 











的 两 种 通 
然后 ， 用 常规 的 概率 推理 实现 参数 值 的 学 习 ，9 
种 方法 不 学 习 参 数值 上 的 后 验 概 率 分 布 , 而 是 在 看 到 i 
] Figaro 实现 这 些 方法 。 
有 了 表现 概率 模型 的 实际 方法 中 的 全 部 成 分 。 
这 些 成 分 构建 一 个 概率 模型 ， 它 如 何 表现 可 
4 ,这 是 理解 概率 编程 和 程 


值 。 


个 引 


布 ? 

















方法 。 在 其 中 的 贝 叶 















































第 9 章 描述 了 参数 学 习 

















斯 学 习 方 法 





， 模 型 包含 了 参数 值 上 的 一 个 概率 分 布 。 





























第 12 章 说 明 如 何 
现在 ,您 已 经 拥 
要 的 问题 。 假 定 


下 一 小 节 介 绍 生成 模型 





























您 
4 











个 概念 。 


生成 过 程 


本 章 从 “概率 模型 是 可 能 世界 上 概率 分 布 的 正式 表现 形式 ”这 一 定义 开始 。4.3 节 


说 明了 如 何 通过 指定 变量 、 依 赖 性 、 






















































































成 这 些 参 数值 上 的 后 验 概 率 分 布 。 第 二 
1 练 数据 之 后 生成 一 个 估算 的 参数 

但 是 我 还 没有 回答 一 

能 世界 上 的 概率 分 

序 如 何 表现 概率 模型 必 不 可 少 的 一 























函数 形式 和 数值 参数 构建 概率 模型 








+4， 这 一 表现 方法 


对 于 概率 编程 也 是 必 不 可 少 的 。 为 了 清晰 地 理解 概率 程序 的 含义 ， 完 成 这 一 闭环 ， 了 解 


这 样 定义 的 概率 模型 如 何 说 明 可 能 世界 上 的 概率 分 布 ， 是 非常 重要 的 。 这 





过 程 的 概念 为 中 心 。 
概率 程序 依赖 于 概率 模型 和 某 种 编程 语言 所 编写 程序 2 


) 


河 


~ 





三 | 
AE: 


图 ” 贝 叶 斯 网 络 等 概率 模型 可 以 视 为 对 生成 变量 值 过 程 的 定义 。 这 一 生成 过 程 





























理解 以 生成 



































了 可 能 世界 上 的 概率 分 布 。 
图 类似 地 ， 和 常规 的 非 概率 程序 定义 生成 变量 值 的 过 程 。 


























间 的 类 比 。 这 种 类 比 的 实 





定义 
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国 ”结合 上 述 两 者 ， 概 率 程 序 使 用 编程 语言 描述 生成 涉及 随机 选择 的 变量 值 生 成 过 
程 。 这 一 生成 过 程 定义 可 能 世界 上 的 概率 分 布 。 

上 面 的 最 后 一 句 需 要 证 明 , 我 将 解释 贝 叶 斯 网 络 如 何 通 过 生成 过 程 定义 可 能 世界 上 
的 概率 分 布 ， 然 后 将 其 类 推 到 概率 程序 。 
我 们 来 看 看 贝 叶 斯 网 络 如 何 定义 生成 变量 值 的 过 程 。 图 4-11 
叶 斯 网 络 ， 以 及 给 定 所 依赖 变量 情况 下 ， 每 个 变量 的 CPD。 
































a 


现 了 图 4-10 中 的 贝 
































Subject 的 概率 值 


People Landscape 
0.8 0.2 


在 Subject 给 定 的 情况 下 Size 的 概率 在 Subject 给 定 的 情况 下 Brightness 的 概率 


Subject Subject Brightness 


Small | Medium | Large Dark Bright 





People 0.25 0.25 0.5 People 0.8 0.2 
Landscape 0.25 0.5 0.25 Landscape 03 0.7 





图 4-11 包含 CPD 的 3 节点 贝 叶 斯 网 络 


您 可 以 想象 生成 网 络 中 所 有 变量 值 的 过 程 。 在 已 经 得 到 所 依赖 变量 的 值 之 前 ， 您 一 
定 不 能 生成 某 个 变量 的 值 。 这 一 过 程 如 图 4-12 所 示 。 从 Subject 入 手 ， 因 为 它 没有 依赖 
任何 其 他 变量 。 根 据 Subject 的 CPD，People 的 概率 为 0.8，Landscape 的 概率 为 0.2。 所 
以 , 您 随机 选择 People 或 者 Landscape, 每 个 都 有 对 应 的 概率 , 假设 选择 的 是 Landscape。 

然后 , 选择 Size 变量 , 您 可 以 这 样 做 是 因为 已 经 选择 了 Subject 的 一 个 值 , 这 是 Size 
变量 依赖 的 唯一 变量 。 因 为 选择 了 Subject = Landscape, 所 以 可 以 使 用 Size 的 CPD 中 的 
对 应 行 。 在 这 一 行 中 ,Small 的 概率 为 0.25, Medium 的 概率 为 0.5, Large 的 概率 为 0.25。 
所 以 您 以 这 些 概 率 随机 选择 Size 的 一 个 值 。 假 设 选 择 Medium。 

最 后 ， 为 Brightness 选择 一 个 值 ， 这 类 似 于 Size 值 的 选择 ， 因 为 Brightness 只 取决 
于 Subject， 后 者 的 值 为 Landscape。 假 设 我 们 选择 的 是 Bright。 现 在 ， 所 有 变量 的 生成 
值 是 : Subject = Landscape、Size = Medium、 Brightness = Bright。 
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Subject 的 概率 值 
Subject 
1. 从 这 一 行 中 选择 Subject i a 
结果 : Landscape > eople andscape 
>| 0.8 02 





在 Subject 给 定 的 情况 下 Size 的 概率 在 Subject 给 定 的 情况 下 Brightness 的 概率 








Subject Brightness 
Bright 
People 0.2 


Subject Size 
Small | Medium | Large 
People 0.25 0.25 0.5 


Landscape 0.25 0.5 0.25 Landscape 0.7 





2. 从 这 一 行 中 选择 Size Subject = Landscape 3. 从 这 “ 行 中 选择 Brightness 
结果 : Medium 对 应 的 行 结果 : Bright 


图 4-12 为 3 节点 网 络 的 所 有 变量 生成 值 的 过 程 。 变 量 值 通过 根据 父 变量 的 值 ， 
使 用 对 应 CPD 行 中 的 概率 选择 一 个 值 生成 


在 经 历 生成 所 有 变量 值 的 过 程 时 ， 每 个 变量 都 存在 多 种 可 能 性 。 可 以 绘制 一 棵 树 捕 
捉 所 有 可 能 性 。 图 4-13 中 展示 了 适合 于 我 们 的 例子 的 树 。 树 根 是 第 一 个 变量 Subject。 
Subject 的 每 个 可 能 值 表 示 为 一 个 分 支 一 People 和 Landscape。 每 个 分 支 用 选择 的 概率 
注释 。 例 如 ， 根据 Subject 的 CPD，Landscape 的 概率 为 0.2。 然 后 进入 下 一 个 变量 Size， 
该 变量 出 现在 树 的 两 个 节点 中 ， 对 应 于 Subject 的 可 能 选择 。 在 每 个 Size 节点 上 ， 树 
有 3 个 对 应 于 其 可 能 值 的 分 支 。 注 意 ， 与 这 些 分 支 关 联 的 数字 对 于 两 个 Size 节点 有 所 
不 同 。 这 是 因为 这 些 数字 来 源 于 Size 的 CPD 的 对 应 行 。 根 据 Subject 是 People 还 是 
Landscape， 选 择 的 是 不 同 的 行 。 在 Size 节点 的 每 个 分 支 之 后 是 Brightness 节点 ， 该 节 
点 有 两 个 分 支 ， 分 别 对 应 Dark 和 Bright， 同 样 ， 概 率 取 自 于 Brightness 的 CPD 的 对 应 
行 。 注 意 ， 左 侧 的 3 个 Brightness 节点 概率 都 相同 ， 右 侧 的 Brightness 节点 也 类 似 。 
这 是 因为 Brightness 仅 取 决 于 Subject 而 不 依赖 Size。 左 侧 的 3 个 Brightness 节点 都 选 
择 了 相同 的 Subject 值 。 
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Subject 
-一 
下 0.8 3 Landscape 0. 2 
size LS 
Small 0.25 Large 0.5 Small 0.25 Large 0.25 
ed 0.25 Se 0.5 
Brightness po a ov oo Brightness 
Dark 0.8 Dark 0.8 4 Dark 0.8 / \ Dark 0.3 / Dark 0.3 | Dark 0.3 六 
\ 和 
Bright 0.2 / Breght0.2 / Bright 02 / Bright 0.7 | Bright 0.7 Bright 0.7 
| \ / \ 站 \ | \ N 
0.16 0.04 0.16 0.04 0.32 0.08 0.015 0.035 0.03 0.07 0.015 0.035 
个 个 人 4 个 个 个 个 个 个 个 + 
AN 本 \ \ / / J 4 区 
we 曙 _ / 7 2 4 
一 一 - SS / 2 -一 本 a 


可 能 世界 的 概率 通过 将 路 径 上 各 个 选择 的 概率 相 乘 计 算 。 这 些 概率 的 总 和 为 1 


当 您 经 历 图 4-13 中 的 生成 过 程 
得 出 的 选择 顺序 如 图 
多 大 ? 答案 来 上 





图 





4-13 




















于 链 式 法 则 ， 








4-14 所 示 ， 您 得 到 了 一 个 特 


3 节点 贝 叶 斯 网 络 生 成 概率 树 
时 ,在 树 中 的 每 个 节 到 都 要 做 出 





特定 的 选择 。 最 终 





定 的 可 能 世界 。 
部 分 将 会 学 习 的 规则 之 一 。 





A 


这 是 第 





这 个 可 能 世界 的 概率 
根据 这 一 规则 ， 可 





能 世界 的 概率 是 生成 该 世界 过 程 中 所 做 选择 概率 的 乘积 。 例 如 , 对 于 可 能 世界 (Subject 


= Landscape, Size = Medium, Brightness = Bright)， 概 率 为 0.2 x 0.5 x 0.7 = 0.07 。 











明 


证 


所 有 可 能 世界 的 概率 总 和 为 1 并 不 困难 。 因 此 ， 贝 叶 斯 网 络 定义 了 可 能 世界 上 的 概率 





分 布 。 





现在 ， 您 
中 的 一 个 程序 ， 它 也 说 明了 生成 变量 值 的 
生成 变量 值 的 过 程 涉及 随机 








络 类 似 ， 差 别 只 是 使 用 了 编程 


已 经 了 解 贝 叶 斯 网 络 是 如 何 说 明生 成 变量 值 的 过 程 的 。 考 虑 常规 编程 


\ 五 过 
TET 百 




















三 | 
只 是 








个 过 程 ， 




















比 贝 叶 斯 网 络 更 多 的 可 
结构 〈 如 集合 和 


能 性 。 



































j 让 加 的 控 带 





您 可 以 使 | 

















I 树 )。 但 是 原型 
在 概率 程序 的 运行 中 ， 根 据 所 依赖 变量 的 值 ， 利 月 





该 过 程 不 涉及 随机 选择 。 
选择 之 外 ， 概 率 程 序 和 常规 程序 类 似 。 概 率 程 序 和 贝 中 
语言 结构 描述 生成 过 程 。 因 为 您 拥有 编程 语言 ， 
| 流 〈 如 循环 和 函数 )、 
相同 : 程序 定义 了 生成 所 有 变量 值 的 过 程 。 
有 定义 生成 每 个 变量 的 值 。 在 程序 


除了 
斯 网 
就 拥有 了 
复杂 的 数据 























量 的 值 。 这 组 变量 和 生成 的 值 组 成 了 可 外 




















终止 之 后 ， 您 已 经 得 到 一 组 变 
斯 网 络 中 那样 ， 这 个 可 能 世界 








的 概率 是 每 个 随机 选择 概率 的 乘积 





世界 。 





正如 贝 叶 
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Subject 
> 0 
People 0.8 Landscape 0. 2 
ee 
Size Size 
Small 0.25 | Large 0.5 Small 0.25 Large 0.25 
Medium 0.25 Medium 0.5 
| 
Brightness Brightness Brightness Brightness Brightness Brightness 
\ \ 让 
/ 八 从 | 
Dark 0.8 Dark 0.8 Dark 0.8 / Dark 0.3 f \ Dark 0.3 Dark 0.3 
\ / \ / \ | 
Bright 0.2 Bright 0.2 / Bright 0.2 / Bright 0.7 | Bright 0.7 Bright 0.7 
| \ / \ / \ \ 所 
0.16 0.04 0.16 0.04 0.32 0.08 0.015 0.035 0.03 0.07 0.015 0.035 
人 
/ 
/ 
| 
所 选 可 能 世界 的 概率 为 


02x0.5x0.7=0.07 


图 4-14 ”选择 顺序 及 其 概率 


但 是 ， 概 率 程序 和 贝 叶 斯 网 络 之 间 有 很 大 的 差异 ， 每 次 运行 中 程序 赋值 的 变量 集 可 
能 不 同 。 为 了 理解 这 一 点 ， 考 虑 如 下 的 Figaro 程序 : 


Chain(Flip(0.5), (b: Boolean) => if (b) Constant (0.3) else Uniform(0, 1)) 


Constant(0.3) 元 素 只 有 在 Flip 值 为 true 时 才 会 创建 ， 而 Uniform(0，1) 元 素 只 有 在 
Flip 值 为 flase 时 才 会 创建 。 这 两 个 元 素 不 可 能 在 程序 运行 中 同时 创建 和 赋值 。 但 是 ， 
每 次 运行 该 程序 都 会 得 到 一 个 有 明确 定义 概率 的 可 能 世界 。 而 且 ， 尽 管 证 明 起 来 比较 
难 ， 但 是 这 些 可 能 世界 的 概率 总 和 仍然 为 1。 因 此 ， 概 率 程序 定义 了 可 能 世界 上 的 概 


警告 : 在 编程 语言 中 ， 编 写 不 终止 的 程序 是 有 可 能 的 ， 对 于 概率 编程 语言 来 说 也 是 一 样 。 如 果 
概率 程序 定义 的 随机 过 程 存在 不 终止 的 可 能 性 , 它 就 不 能 在 可 能 世界 上 定义 有 效 的 概率 

分 布 。 想象 一 下 ， 概 率 程序 定义 一 个 递归 函数 ， 不 停 地 调用 自身 ， 这 一 程序 定义 的 过 程 
就 不 会 终止 。 

到 现在 为 止 , 您 应 该 已 经 对 概率 模型 的 定义 和 使 用 方法 以 及 概率 程序 如 何 表现 概率 
模型 的 所 有 成 分 有 了 很 好 的 认识 。 在 结束 本 章 之 前 ， 您 需要 考虑 另 一 个 技术 要 点 一 一 如 
何在 概率 模型 中 使 用 连续 变量 。 
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4.5 


4.5.1 


使 用 连 


到 目 





数 ) 的 值 有 明确 的 分 隔 ， 而 














地 ZK 
续 变 
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量 的 模型 








的 处 理 不 








任何 实数 





为 了 具体 说 明 ， 我 将 使 用 一 个 B- 二 项 式 模型 。 这 种 使 














， 您 已 经 使 有 





模型 


有 这 个 模 














前 为 止 ， 您 所 看 到 的 概率 模型 示例 使 ) 
续 元 素 〈 如 实数 ) 


连 



























































型 表示 





儿子 邮件 











， 以 说 明 本 章 目前 为 止 学 习 





现 这 个 变量 ， 并 解释 连续 变量 的 一 般 





使 用 B- 二 项 式 模型 


B- 二 项 式 模型 这 一 名 称 的 上 








的 概念 。 























法。 











来 是 基 














这 个 模 


为 该 模型 








的 不 村 


型 








士 人 - 
结合 





j 的 是 离散 变量 
的 值 没有 分 隔 。 
司 于 离散 变量 这 一 事实 ， 并 承诺 将 提供 完整 的 解释 。 
连续 元 素 带 来 的 挑战 是 ， 难 以 在 所 有 连续 元 素 之 上 定义 概率 分 布 。 我 们 来 考虑 一 下 
区 间 。 如 果 对 区 间 中 的 所 有 数值 指定 了 
小 ， 这 都 是 事实 。 那 么 ， 如 何 定义 连续 变量 的 概率 呢 ? 本 



































看 看 在 这 个 简单 的 示例 中 ， 
] [的 概率 不 同 。 

















AE 
-可 月 上 岂 





正 男 














想象 一 下 ， 您 观察 100 
于 先 定义 变量 。 对 
硬币 的 偏差 ， 称 作 Bias。 

前 100 次 掷 币 掷 出 正面 的 次 数 , 称 


























下 


之 间 的 整数 。 





推 





























这 些 分 布 出 














网 在 什么 位 置 。 假 定 您 有 
您 的 目标 是 根据 前 几 次 括 硬 币 的 观察 ， 预 测 掷 出 正 
次 掷 币 的 结果 ， 和 希望 查询 第 101 次 掷 出 





这 个 例子 ， 您 将 使 





























如 





第 101 次 搓 币 的 结果 ， 称 作 Tossio01。 
至 于 依赖 性 模型 ， 使 用 图 





























断 偏差 ， 但 是 模型 中 的 依赖 性 方向 可 能 与 推 
定 了 每 次 掷 币 的 结果 ,相应 地 驱动 正 


























里 相反 。 从 


Toss 101 


4-15 中 的 贝 叶 斯 网 络 。 记 住 ， 尽 管 您 从 了 





大 























。 离 散 变 量 〈 如 枚 举 和 整 














下 












































第 2 章 提 示 了 连续 变量 
掉 就 是 这 个 解释 。 


E 概 率 ， 总 概率 将 为 无 穷 大 。 不 管 
节 提 供 这 个 问题 的 答案 。 
的 模型 有 许多 应 月 
常 单词 数量 。 本 节 详 细 介 绍 B- 二 项 式 
包含 一 个 连续 变 司 


量 ， 我 将 解释 如 何 表 











~ 





区 间 多 











日。 在 第 3 








使 用 了 B- 分 布 和 二 项 分 布 。 我 们 来 
枚 不 均匀 的 硬币 ， 其 











而 的 概率 。 




















正面 的 概率 。 











下 3 个 变量 。 








和 NumberOfHeads, 这 是 一 个 取 值 为 0 到 100 


E 面 向 上 的 次 数 




















果 关 系 上 看 ， 人 硬币 的 偏差 决 
面向 上 的 次 数 ,所 以 边 从 Bias 指向 NumberOfHeads 。 


4-15 掷 币 示例 的 贝 叶 斯 网 络 。 前 100 次 掷 币 用 一 个 表示 正面 向 上 次 数 的 变量 加 以 总 结 









































。 如 果 您 已 经 知 ; 
情况 下 ，Tossio 








道 














现在 ， 
一 次 撕 
掉 的 概率 。 在 我 们 的 例子 


上 的 概率 等 于 1-Bias。 在 Figaro ! 






































漆 融 于 码 





条 件 独立 了 
您 可 以 选择 函数 形式 。 每 个 变量 有 一 个 函数 
和 币 的 结果 ， 不 是 正面 就 是 背面 ， 是 最 简单 的 天 


4.5 使 用 





连续 变量 的 模型 


jj 疑惑， 为 什么 没有 从 NumberOfHeads 到 Tossiol 的 边 。 
面向 上 的 次 数 提供 了 与 第 101 次 搓 币 相关 的 信息 。 原 因 是， 
媒介 的 。 前 100 











次 掷 币 告诉 您 关于 硬币 偏差 的 信息 ， 然 后 
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毕竟 ， 前 100 次 





所 有 信息 是 以 硬币 























j 这 些 信息 预测 























偏差 ,前 


























FF NumberOfHeads 。 

















式 ， 我 们 从 
椒 式 之 一 ， 只 需 
Bias 变量 值 给 出 ， 
一 个 复合 Flip， 





























， 正 面向 上 的 概率 


， 可 以 使 月 
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合适 的 函数 天 
试验 。 这 种 分 布 描 
观察 100 次 掷 币 时 


来, 您 需要 一 个 函数 形式 , 描述 在 每 次 掷 币 
币 100 次 时 





» 掷 昌 


正本 











a 
结 末 











100 次 掷 币 就 没有 提供 任何 附加 信息 。 


的 概率 与 Bias 值 相 


换言之 , 在 Bias 


开始。 这 
要 指定 正面 或 
与 Bias 相等 ， 而 
其 中 的 概率 由 偏 


Tossio1 Sy, 





















































等 的 情况 下 ， 














的 特定 次 数 的 概率 。 在 第 2 羡 





已 经 看 到 

















多 式 是 





0 
a 











期 结果 











二 项 分 布 。 
述 了 茶 利 
bh 现 特 定 次 数 J 

一 般 来 说 ， 二 项 分 布 取 决 于 两 个 
特定 试验 取得 预 
概率 ， 就 可 以 立即 计算 出 特定 次 数 〈 如 63 次 ) 了 





在 二 项 














， 对 于 这 种 情况 ， 














分 布 中 ， 您 重复 进行 可 能 得 到 两 个 结果 之 一 的 相同 














和 弓 








出 现 次 数 的 概率 分 布 。 在 我 们 的 例子 





Ce 





诉 我 们 


， 它 将 





-个 








E 面 的 概率 。 
参数 : 


子 中 是 硬币 上 






































(在 我 们 的 例 的 正面 向 上 ) 的 概率 。 












































中 ， 这 个 概率 由 Bias 变量 值 给 出 。 
您 需要 Bias 的 函数 和 


一 般 来 说 ，B- 二 项 式 模 
指出 的 模型 。 




















开 


= 





试验 次 数 〔 我 们 的 例子 中 是 100〉 以 及 所 


E 面 向 上 的 概率 。 但 是 ， 在 我 人 


口 


E 何 
如 果 您 知道 这 个 
门 的 例子 


























多 式 。 从 模型 名 称 ， 











您 可 能 已 经 猜 到 ,将 要 为 偏差 使 用 B 分 布 。 








1 


























此 的 是 包含 表示 试验 成 功 次 数 的 二 项 变量 ， 成 功 概率 由 B 变 


县 





晶 




























































































































































































您 已 经 知道 硬币 的 偏差 呈 B 分 布 。 但 是 ， 这 意味 着 什么 呢 ?” 如 何 得 到 连续 变量 上 的 

概率 分 布 ? 
4.5.2 ”连续 变量 的 表示 

Bias 的 值 是 0 一 1 的 实数 ， 所 以 它 是 一 个 连续 变量 。 连 续 变 量 需 要 不 同 的 方法 指定 
概率 分 布 。 例 如 ， 假 定 您 认为 一 幅 画 的 高 度 在 50 到 150 厘米 之 间 ， 且 不 认为 任何 一 个 
高 度 的 可 能 性 超过 其 他 高 度 。 因 此 ， 其 值 域 为 50~150 厘米 ， 您 相信 该 范围 内 的 概率 是 
均匀 的 。 您 可 能 想 要 知道 高 度 恰 为 113.296 厘米 的 概率 ,问题 是 可 能 的 高 度 有 无 穷 多 个 。 
如 果 任 何 高 度 有 正 概率 〈 如 0.2)， 且 您 相信 所 有 高 度 都 有 相同 的 概率 ， 那 么 就 有 无 穷 多 





> 








概率 为 0.2 的 高 度 ，50 和 150 厘米 之 间 的 


道 总 概率 必须 为 1。 









































解 





方案 是 不 考虑 上 


单独 高 度 的 概率 ， 而 是 

















所 有 高 度 的 总 概率 将 为 无 穷 大 。 但 是 ， 您 知 


观察 高 度 的 一 个 区 间或 者 范围 。 例 如 ， 如 
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果 查 问 高 度 在 113 厘米 到 114 厘米 之 间 的 概率 ， 您 可 以 说 是 100， 因 为 这 是 在 100 个 
相同 可 能 性 的 厘米 数 中 的 一 个 。 实 际 上 ,您 可 以 查询 113.296 厘米 周围 任意 区 间 的 概率 ， 
不 管 这 个 区 间 有 多 小 。 例 如 ，[113.2，113.3] 区 间 的 概率 为 11000，[113.29，113.30] 区 间 
的 概率 为 110000， 依 此 类 推 。 

因此 ， 对 于 连续 变量 ， 单 独 的 点 概率 通常 为 0。 我们 来 考虑 硬币 的 偏差 ， 偏 差 恰 为 
0.49326486… 的 概率 为 0， 因为 还 有 无 穷 多 个 其 他 点 。 但 是 包含 这 些 点 的 区 间 有 正 概率 。 
例如 ， 偏 差 可 能 在 0.49326 和 0.49327 之 间 。 

图 4-16 描述 了 指定 每 个 区 间 概 率 的 一 种 数学 方法 一 使 用 概率 密度 函数 (PDF)。 
PDF 是 指定 每 个 区 间 概 率 的 一 种 方法 , 它 通 过 提供 每 个 点 的 密度 起 作用 。 如 果 区 间 很 小 ， 
密度 在 整个 区 间 上 可 能 大 致 相同 ， 所 以 该 区 间 的 概率 等 于 恒定 的 概率 乘 以 区 间 的 长 度 。 
在 图 4-16 中 显示 的 是 均匀 PDF， 密 度 完全 固定 在 值 0.01， 所 以 区 间 〈113,114) 的 概率 
等 于 0.01 乘 以 区 间 长 度 1， 也 就 是 0.01。 当 密度 函数 完全 平 直 时 ， 将 恒定 密度 乘 以 区 间 
长 度 可 以 得 出 该 区 间 密 度 曲线 之 下 的 面积 。 一 般 来 说 ， 密 度 在 不 同 点 可 能 变化 ， 在 这 种 
情况 下 ， 区 间 概 率 为 曲线 之 下 面积 的 原理 也 同样 适用 。 如 果 您 还 记得 微 积 分 知识 ， 就 会 
知道 区 间 中 曲线 之 下 的 面积 等 于 密度 函数 在 该 区 间 内 的 积分 。 本 书 中 不 要 求 您 进行 任何 
微 积 分 计算 ,或 者 计算 任何 曲线 下 的 面积 一 一 Figaro 负责 这 项 工作 ， 但 是 我 希望 确保 您 
能 理解 ， 连 续 分 布 与 其 他 分 布 略 有 不 同 ， 并 且 确 保 您 知道 密度 函数 是 什么 。 











































































































































































































































































































































































































a 














概率 密 度 


概率 密度 函数 (PDF) 
0.01] 


(113，114) 的 概率 


=PDF 下 的 面积 =0.01 











0 1 人 
50 113 114 150 
高 度 (cm) 
图 4-16 ”概率 密度 函数 (PDF ): 区 间 的 概率 等 于 该 区 间 中 PDF 曲线 下 区 域 的 面积 


( 此 图 没有 按照 比例 绘制 ) 


回 到 我 们 的 例子 ， 您 将 为 Bias 寻找 一 个 函数 形式 ， 需 要 为 其 指定 一 个 PPF。 您 知 
道 偏差 是 一 个 概率 ， 因 此 必然 在 0 和 1 之 间 ， 所 以 在 0,1) 区间 之 外 的 密度 必然 为 0。 
有 一 个 函数 形式 正好 适合 于 这 种 情况 ， 这 就 是 B 分 布 。B 分 布 用 于 建立 有 两 种 可 能 结果 的 
试验 产生 某 种 结果 的 概率 模型 。 图 4-17 展示 了 B 分 布 的 一 个 例子 。 可 以 看 到 ， 这 种 分 布 
只 在 0 和 1 之 间 有 正 概率 ， 有 单一 的 波峰 。 很 快 您 就 会 看 到 如 何 描述 峰值 所 在 以 及 图 形 
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的 尖锐 程度 。 
选择 B 分 布 描述 硬币 偏差 特征 的 原因 是 B 分 布 和 二 项 分 布 结合 得 很 好 。 有 具体 地 说 ， 如 
果 有 关于 NumberOfHeads 的 证 据 且 Bias 的 先 验 分 布 是 B 分 布 , 那么 在 看 到 硬币 正面 朝 上 
次 数 的 证 据 之 后 ，Bias 的 后 验 分 布 也 是 B 分 布 。 您 将 在 第 3 部 分 中 看 到 ， 以 这 种 方式 预 
测 第 101 次 掷 币 结果 很 简单 。 
总 结 起 来 ， 目 前 为 止 您 已 经 拥有 了 如 下 变量 及 其 函数 形式 。 
加 ”Bias， 由 B 分 布 描述 其 特性 。 














































































































































































































加 ”NumberOfHeads， 由 总 试验 数量 为 100， 每 次 试验 中 正面 向 上 概率 为 Bias 值 的 
二 项 分 布 描述 。 

国 。 Toss0， Flip 描述 ， 其 中 正面 的 概率 等 于 Bias 的 值 。 

下 面 是 模型 的 Figaro 框架 : 








val bias = Beta(?,?) 
val numberOfHeads = Binomial (100, bias) 
val toss101 = Flip (bias) 


现在 进行 描述 模型 的 第 4 步 : 选择 数值 参数 。 观 察 程序 框架 ， 可 以 看 到 numberOf- 
Heads 和 toss101 的 相关 参数 由 bias 的 值 指 定 ， 后 者 已 经 是 程序 中 的 一 个 元 素 。 您 只 需 
要 指定 bias 的 参数 即 可 。 为 此 ， 您 必须 理解 B 分 布 的 参数 。 

B 分 布 有 许多 版 本 ， 图 4-17 中 展示 了 一 个 特殊 的 版 本 。 每 个 版 本 的 特性 由 两 个 数值 
参数 a 和 B 描 述 。 图 中 的 版 本 是 beta(2, 5)， 即 a 值 为 2，B 值 为 5。 

这 两 个 参数 有 一 种 自然 的 解读 , 代表 观察 到 各 种 结果 的 次 数 加 1。 在 我 们 的 例子 中 ， 
a 是 已 经 观察 到 的 硬币 正面 向 上 次 数 加 1， 而 B 则 是 背面 向 上 的 次 数 加 1。 因 此 ， 在 观察 
任何 掷 硬 币 的 试验 之 前 ， 先 验 x 和 有 B 参 数 表 示 您 认为 在 想象 的 掷 硬币 试验 中 观察 到 的 结 
果 。 如 果 您 认为 自己 对 此 一 无 所 知 ,没有 想象 任何 掷 硬币 试验 ,可 以 将 xc 和 B 都 设置 为 1。 
如 果 根 据 类 似 硬币 的 经 验 认 为 这 个 硬币 正面 比 背 面 更 容易 出 现 ， 可 以 将 a 设置 为 大 于 B。 
对 这 一 经 验 越 有 信心 ，a 和 PB 的 量 级 就 越 大 。 
列 如 在 图 4-17 中 ，o 为 2，B 为 5。 因为 Bp 大 于 au， 您 的 先 验 信念 倾向 于 该 硬币 偏向 背 
面 (正面 的 概率 较 小 ), 确实 , 可 以 看 到 低 偏差 值 (<0.5 ) 的 概率 密度 高 于 高 偏差 值 (>0.5 )。 
而 且 ， 从 o= 2 和 B= 5 开始 ,暗示 着 您 己 经 看 到 了 一 次 正面 和 四 次 背面 ， 所 以 将 从 一 些 关 
于 偏差 的 先 验 知识 入 手 ，PDF 不 是 直线 正 反 映 了 这 一 点 。 
您 已 经 看 到 了 概率 模型 的 全 部 4 种 成 分 ， 以 及 在 概率 程序 中 如 何 表 示 它 们 。 现 在 ， 
您 已 经 为 深入 建 模 技术 和 设计 模式 做 好 了 准备 。 下 一 章 将 从 依赖 性 的 详细 讨论 开始 ，3 
介绍 两 种 描述 它们 的 代表 性 框架 一 一 贝 叶 斯 网 络 和 马尔 科 夫 网 络 。 
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图 4-17 ”beta(2, 5) 分 布 的 PDF 


4.6 ”小结 


量 。 概率 模型 以 可 能 世界 上 概率 分 布 的 形式 表示 一 般 领 域 知识 。 

图 ”您 使 用 证 据 排除 与 证 据 不 一 致 的 可 能 世界 ， 并 规格 化 其 余 可 能 世界 的 概率 。 概 
率 编程 系统 使 用 推理 算法 负责 这 一 工作 。 

四 ”构建 概率 模型 需要 指定 变量 及 其 类 型 、 网 络 形式 的 变量 间 依 赖 关 系 以 及 每 个 变 
量 的 函数 形式 及 数值 参数 。 

四 ”连续 变量 的 函数 形式 由 一 个 概率 密度 函数 指定 。 

图 ”概率 模型 的 成 分 定义 生成 所 有 变量 值 的 过 程 。 

里 ”概率 程序 使 用 编程 语言 定义 生成 过 程 。 




















































































































4.7 练习 





在 www.manning.comy/books/practical-probabilistic-programming 上 可 以 找到 部 分 练习 
的 解答 。 

1. 考虑 一 个 5 张 牌 的 扑克 游戏 : 黑 桃 A、 黑 桃 K、 红 心 K、 黑 桃 Q 和 红心 Q。 每 
个 游戏 者 得 到 一 张 牌 。 可 能 世界 有 哪些 ? 假定 牌 已 经 洗 得 很 好 ， 每 个 可 能 世界 的 概率 是 
多 大 ? 



































































































































































































































































































































































































































































































































4.7 练习 115 
2. 在 同一 个 扑克 游戏 中 ， 您 观察 到 一 位 游戏 者 有 一 张 人 头 牌 〈K 或 者 Q)。 其 他 游 
戏 者 有 一 张 黑 桃 的 概率 多 大 ? 
ee 。 游 戏 包括 下 注 ， 下 面 是 下 注 的 规则 : 
游戏 者 1 可 以 下 注 或 者 通 
如 果 游 戏 者 1 下 注 : 
游戏 者 2 可 以 下 注 或 者 放弃 。 
如 果 游 戏 者 1 通过 : 
游戏 者 2 可 以 下 注 或 者 通过 。 
如 果 游 戏 者 2 下 注 
游戏 者 1 可 以 下 注 或 者 放弃 。 
可 能 的 下 注 结果 是 : (1) 两 位 游戏 者 都 下 注 ; (2) 两 位 游戏 者 都 通过 ; (3) 其 中 一 
位 下 注 ， 另 一 位 通过 。 如 果 两 者 都 通过 ， 则 他 们 都 没有 任何 输赢 。 如 果 一 位 下 注 ， 另 一 
位 放弃 ， 则 下 注 的 游戏 者 赢得 1 美元 。 如 果 两 者 都 下 注 ， 牌 较 大 的 游戏 者 赢得 2 美元 。 
如 果 两 位 游戏 者 的 牌 同 级 ， 黑 桃 战胜 红心 。 
您 打算 为 这 个 扑克 游戏 构建 一 个 概率 模型 。 模 型 的 目标 是 根据 每 次 行动 发 生 的 结 
果 ， 帮 助 您 决定 游戏 中 任何 时 点 的 行动 。 
a) 模型 中 有 哪些 变量 ? 
b) 变量 之 间 有 何 依赖 性 ? 
c) 这 些 依赖 性 的 函数 形式 是 什么 ? 
d) 您 确定 的 数值 参数 有 哪些 ? 哪些 参数 必须 估算 或 者 从 经 验 中 学 习 ? 
4. 编写 一 个 Figaro 程序 表示 游戏 的 概率 模型 。 假 定 某 些 参 数值 必须 估算 。 使 用 程 
序 做 出 如 下 决定 : 
a) 您 是 游戏 者 1， 得 到 了 一 张 黑 桃 K。 应 该 下 注 还 是 通过 ? 
b) 您 是 游戏 者 2， 得 到 了 一 张 红 心 K， 对 手下 注 。 您 应 该 下 注 还 是 放弃 ? 
c) 现在 ， 看 看 能 否 改变 估算 参数 值 ， 改 变 决 定 。 
5. 通过 练习 4 中 的 程序 生成 过 程 ， 描 述 3 种 不 同 的 选择 顺序 。 使 用 程序 第 1 版 本 
BR eo Rl a 
6. 您 怀疑 对 手 发 牌 时 不 公正 。 具 体 地 说 ， 您 相信 她 以 未 知 的 概率 p 发 给 您 红心 Q， 
而 在 其 余 情 况 下 (概率 为 Lp)， 她 以 随机 的 方式 发 牌 。 您 相信 概率 遵循 Beta (1.20) 
您 得 到 的 100 张 牌 中 ， 有 40 张 是 红心 Q。 使 用 Figaro 计算 下 一 张 牌 是 红心 Q 





贝 叶 斯 和 马尔 科 夫 网 络 


建立 依赖 性 模型 





av ml 
第 5 章 用 
本 章 介 绍 如 下 内 容 : 
国 ”概率 模型 中 变量 之 间 的 关系 以 及 这 些 关 系 如 何 转 
化 为 依赖 性 
图 ”如 何 用 Figaro 表达 不 同类 型 的 依赖 性 
国 。” 贝 叶 斯 网 络 : 编码 变量 之 间 有 向 依赖 性 的 模型 
国 ”马尔 科 夫 网 络 ， 编码 变量 之 间 无 向 依赖 性 的 模型 
加 ” 贝 叶 斯 和 马尔 科 夫 网 络 的 实际 示例 





您 











在 第 4 证 中 ， 





的 成 分 一 一 变量 、 





您 学 习 了 有 关 概 率 模型 





+ 和 概率 程序 间 关 系 的 知识 ， 





是、 依赖 性 、 








网 络 和 马尔 入 
依赖 性 








夫 网 络 。 这 两 利 








捕捉 变量 














是 构建 模型 











知识 。 
达 对 称 





所 能 得 到 的 最 
一 般 来 说 ， 变 量 之 | 
关系 。 贝 叶 斯 网 络 编码 有 向 依赖 性 ， 
如 何 用 编程 语言 的 能 力 扩展 




















函数 





区 式 和 数值 参数 。 本 章 的 焦点 是 两 和 





之 间 的 关系 。 弄 

















框架 基于 不 同 
里 解 关 系 





的 种 类 和 妇 



































有 向 依赖 性 














FE 表 达 不 对 称 3 








的 依赖 性 编码 方法 。 
I 何 转化 为 概率 模型 
重要 技能 之 一 。 相 应 地 ， 您 将 学 习 关 于 
梧 有 两 类 依赖 性 : 























还 了 解 了 概率 模型 
建 模 框架 





中 











各 类 关系 及 依赖 性 

系 ， 无 向 依赖 性 
而 马尔 科 夫 网 络 编码 无 向 依赖 性 。 您 将 学 习 
二 统 贝 叶 斯 网 络 ， 从 概率 编程 的 能 力 中 获 益 。 





eR: 贝 叶 斯 


的 依赖 性 ， 
的 
表 








5.1 
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里 解 本 章 中 的 材料 之 后 ， 您 将 对 概率 编程 的 精髓 有 扎实 的 知识 。 所 有 概率 模型 都 可 
以 归结 为 一 组 有 向 和 无 向 依赖 性 ， 您 将 知道 何 时 引入 变量 之 间 的 依赖 性 ， 依 赖 性 是 有 向 
还 是 无 向 ， 如 果 有 向 ， 应 该 使 用 哪 一 种 方向 。 第 6 章 以 这 些 知 识 为 基础 ， 用 数据 结构 创 
建 更 复杂 的 模型 ， 第 7 章 将 进一步 用 面向 对 象 建 模 方 法 扩展 您 的 技能 。 
本 章 假 定 您 已 经 有 了 Figaro 的 基本 知识 ， 这 些 知 识 在 第 2 章 中 已 经 出 现 。 特 别 是 ， 
您 应 该 熟悉 了 有 向 依赖 性 的 基础 Chain， 以 及 无 向 依赖 性 的 基础 称 


将 使 用 第 4 章 中 
将 在 您 看 到 它 人 

















建立 依赖 性 模型 


概率 推理 
恩 ， 则 两 个 变 引 








是 关于 


























晤 








定 有 两 个 变量 : 
状态 )。 如 果 观 察 到 电源 按钮 关闭 ， 可 以 推断 打 


打印 机 状态 关闭 ， 也 可 以 推 
用 于 建立 以 某 利 





依赖 尾 
赖 性 只 有 两 类 : 











变量 间 依 赖 怕 
量 是 相关 的 。 相 反 ， 如 果 知 道 一 个 变量 的 某 些 信息 不 能 告 
量 的 任何 信息 ， 这 两 个 变量 是 独立 的 。 

考虑 一 个 计算 机 系统 诊断 应 用 
Printer Power Button On (打印 机 电源 按钮 开局) 和 Printer State (打印 机 
印 机 状态 为 关闭 。 相 反 地 ， 如 果 观 


断 电源 按钮 可 能 关闭 。 这 两 个 变量 明显 相关 。 








出 现 过 的 CPD 和 RichCPD 元 素 。 
] 的 时 候 提醒 。 




















E 运 上 


i 














条 件 与 约束 。 您 还 
我 


如 果 不 记 得 这 些 概 念 也 不 用 担心 ， 
































j 的 技术 。 如 果 一 个 变量 的 知识 为 其 他 变量 提供 信 
其 1 




















i 诉 您 关于 其 他 变 

































































在 这 个 应 用 





方式 相关 的 变量 的 模型 。 


您 尝试 推理 茶 个 打 














印 进程 的 故障 。 假 














绎 到 

















变量 之 间 存 在 许多 类 关系 ,但 是 依 

















加 ”有 向 依赖 性 从 一 个 变量 指向 男 一 个 变量 。 


模型 。 


国 无 向 依 粮 性 建 并 两 者 之 间 影 " 





下 面 两 个 小 节 详 


有 向 依赖 性 


有 向 依赖 性 从 
导致 打 E 
5-1 说 明了 


电源 按钮 关闭 
向 依赖 性 。 轿 

















描述 


















































通常 ， 这 些 关系 建立 变量 因果 关系 的 














问 没 有 显著 方向 的 变量 关系 模型 。 











这 两 类 依赖 性 ， 





并 提供 丰 





丰富 的 示例 。 



































个 节点 之 间 箭头 的 党 














第 二 个 变量 








个 变量 指向 另 一 个 变 
机 停机 ， 所 以 Printer Power Button On 和 
这 种 依赖 性 ， 两 个 变量 
用 术语 ) 第 We (这 是 
量 (Printer State ) 称 作 子 变 











旺 ， 通 常用 于 表 

















示 因 果 关 系 。 例 如 ， 打 印 机 
Printer State 之 间 存 在 





过 否 












































之 间 有 一 条 有 向 边 。( 边 是 表示 图 
是 Printer Power Button On ) 称 为 父 变量 ， 


























下 
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为 什么 箭头 从 因 到 果 ? 理 上 
探索 过 的 生成 模型 概念 有 关 。 您 应 该 记得 ， 生 成 模型 描 
生成 过 程 模拟 某 利 


程 。 一 般 来 说 ， 











该 首先 生成 原因 的 值 ， 




















贝 叶 


和 马尔 科 夫 网 络 建立 依赖 性 模型 








打印 机 电源 按钮 





网 | 









































并 上 














不 


三 











并 且 想 象 为 模型 
后 生成 Printer State 























现在 ， 值 得 重 日 
钮 关闭 推 新 出 打 
常 运行 ， 可 以 确 



































中 的 所 有 变量 生成 值 ， 
值 。 


的 是 ， 依 赖 性 的 方向 不 一 定 





5-1 表示 








因果 关系 的 有 向 依赖 性 





很 简单 ， 因 通常 发 生 在 果 之 前 。 





更 深入 的 答 








现实 世界 的 过 程 。 
该 值 生成 结果 。 在 我 们 的 人 








印 机 状态 为 停机 ，(1 

















定 打印 机 按钮 没有 关闭 。 

















在 诊断 应 用 中 ， 
出 打印 机 





























各 种 因果 关系 


您 可 能 
源 按钮 是 否 
箭头 的 冲动 。 这 是 错误 
我 曾经 说 过 ， 有 向 依赖 性 
间 不 对 称 关 系 的 一 个 例子 。 
果 关 系 ， 然 后 是 其 他 类 型 。 


观察 到 打印 机 停机 并 
能 有 绘制 一 
箭头 应 该 表达 生成 过 程 ， 





F 启 。 您 可 
的 。 














是 推理 的 方向 。 
昌 是 也 可 以 从 相反 的 方向 推理 ， 
许多 人 错误 地 按 























试图 确定 其 


























遵循 





小 \ 











导致 某 和 


个 


案 与 第 4 章 





述 了 模型 中 所 有 变量 值 的 生成 过 
如 果 某 个 原因 
上 | 子 中 , 如 果 创 建 一 
您 将 首先 生成 Printer Power Button On 的 








中 结果 ， 您 应 





个 打印 机 模型 ， 


值 ， 然 








您 可 以 从 
如 果 打 日 

















J 印 机 电源 按 
机 状态 为 正 























照 预 想 的 推理 方 | 
时， 


所 以 从 打 E 








条 从 打印 机 状态 到 打印 
果 关 系 的 方向 。 








大 














通常 建立 的 是 因果 关系 模型 。 











下 面 是 因果 关系 的 一 些 种 类 。 
图 ” 先 发 生 的 情况 与 接 下 来 发 生 的 情况 


发 生 的 另 一 种 ; 



































种 时 间 关 系 是 贰 








果 关 系 的 


间 ， 但 是 我 不 同意 这 一 点 。 


四 状 


下 面 我 们 更 仔细 


青 况 。 例 如 ， 
常见 特性 ， 


实际 上 ， 











机 





电源 按钮 开 





可 构造 模型 。 
机 状态 推断 
启 的 














大 























地 观察 各 种 类 








如 果菜 人 关闭 打印 机 





以 至 于 您 可 








态 的 因果 关系 一 一 有 时 候 , 您 可 能 


果 关 系 只 是 变量 





型 的 不 对 称 关 系 一 一 首先 是 因 

















能 认为 所 有 














最 明显 的 因果 关系 是 某 种 情况 导致 后 来 
电源 ， 此 后 打印 机 将 停机 。 这 
因果 关系 都 涉及 时 


两 个 变量 代表 某 一 时 刻 状态 的 不 同方 面 。 





例如 ， 
是 否 停机 。 
印 机 停机 ， 


可 能 























个 变量 表 








示 打 印 机 























电源 按钮 是 














应 。 





否 关闭 
两 者 都 是 同一 时 刻 的 状态 。 在 这 个 例子 
丸 为 它 使 打印 机 失去 电源 供 














， 男 一 个 变 直 


表示 打印 机 





， 打 印 机 按钮 关闭 导致 打 


够 在 95% 的 
这 些 关系 虽然 明显 是 不 对 称 的 ， 但 是 在 依赖 性 方向 上 不 明确 
帮助 您 解 
部 分 到 整体 一 对 象 中 某 个 部 分 的 


描述 








真实 值 与 计量 值 





直 的 根源 
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。 例 























全 > 
4 性 


传感器 产生 ， 同 一 个 
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个 变量 是 另 一 个 变量 值 的 计量 ， 您 就 会 说 真 值 是 计 











如 ， 假 定 您 有 一 个 Power Indicator Lit 变量 ， 表 示 打 印 机 
。Printer Power Button On 到 Power Indicator Lit 存在 不 对 称 关 系 。 





源 
DV 









































由 可 能 有 超过 个 计量 。 而 






































时 方 





和 撕 币 结果 





常 是 通过 观测 而 得 ， 
向 的 另 一 个 例子 。 
参数 和 使 用 参数 的 变量 一 一 例如 ,考虑 硬币 的 偏差 《表示 掷 币 出 现 正 面 的 概率 ) 
， 然 后 才 是 单 








您 希望 从 计量 值 











， 计 量 































































































。 掷 币 使 用 











偏差 确定 结果 。 很 明显 ， 偏 差 是 先生 成 的 


























独 的 掷 币 结果 。 
其 他 不 对 称 关 系 
到 目前 为 止 ， 前 





面 介 绍 的 情况 都 是 最 重要 、 最 明确 

























































































青 况 : 看 














歧义 





























有 


a 











不 佳 。 





特殊 到 一 般 一 一 这 种 关系 也 可 能 是 双向 的 。 
题 ， 如 卡 纸 或 者 打 E 
一 般 的 打印 机 体验 
在 ， 想 象 一 下 生成 对 象 
例如 ， 生 成 一 




















定 依赖 性 





的 了 

















的 经 验 法 贝 


鼓 和 进 纸 器 的 打印 机 。 作 为 打印 机 的 部 件 ， 丰 
能 导致 整 台 打印 机 的 故障 。 其 他 一 些 
属性 。 例 如 ， 如 果 打 印 机 整体 





推断 真 值 ， 所 以 这 是 依赖 性 方向 不 同 于 推 


























在 多 次 掷 同一 枚 硬币 时 ， 它 们 都 是 在 偏差 之 后 生成 的 。 





的 。 如 果 理 解 了 这 些 情况 ， 就 能 











E 确 方向 。 现在 , 我 们 更 进一步 , 考虑 其 他 的 











种 关系 ， 
































1。 








属性 往往 决定 整体 属性 。 
鼓 或 关 












































。 我 将 列 出 这 些 关 系 ， 然 后 


例如 ， 考 虑 一 台 
进 纸 器 的 故障 都 可 





























时 候 ， 整 体 的 属性 可 














能 决定 某 个 部 分 的 
央 作 工艺 低下 ， 进 纸 器 和 硒鼓 也 很 有 可 能 质 



























































定 类 型 有 关 


具体 /详细 到 抽象 /概要 





他 方式 决定 字母 级 别 ， 所 以 测试 成 绩 导 臻 字母 级 别 。 男 一 方面 ， 











质量 低下 。 
问题 。 在 这 利 


台 打 印 机 时 ， 





























如 果 








= 


























的 过 程 。 








有 细节 精 








通常 ， 您 在 








然后 才 生成 单独 的 属性 。 丰 
的 特殊 属性 





























没有 意义 。 









































试 成 绩 的 生成 过 程 。 您 
































然后 生成 


消除 因果 关系 的 歧义 


从 前 面 











练 对 象 之 前 9 
您 可 能 首先 决定 它 是 激光 打印 机 还 是 喷 墨 打印 机 ， 
实 ， 在 您 知道 打印 机 的 类 型 之 前 ， 生 成 可 能 仅 与 特 


四 考试 成 绩 而 不 是 其 


户 可 能 以 许多 方式 遭遇 打印 机 问 
j 户 遇 到 这 些 特殊 问题 ， 也 就 将 遇 到 较为 
情况 下 ， 特 殊 问题 导致 了 一 般 的 问题 。 另 一 方 
E 成 一 般 属性 。 














体 -抽象 关系 的 例子 是 考试 成 绩 与 字母 级 别 之 间 的 
关系 。 许 多 成 绩 对 应 于 相同 的 字母 级 别 。 很 明显 ， 教 师 根 






































可 能 首先 生成 











体 的 考试 成 绩 。 














参 虑 学 生 和 考 





| 象 的 学 生 类 型 (如 A 学 生 或 者 B 狂 )， 

















的 














例子 中 可 以 看 到 ， 尽 管 这 些 情况 中 存在 明显 






































方向 可 能 很 


本 | 





难 。 下 面 的 思路 可 能 有 所 帮助 。 想 象 某 人 正在 











的 不 对 称 依赖 性 ， 但 是 梳理 依赖 性 的 
用 英语 向 另 一 个 人 讲 一 句 话 ， 如 下 
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用 





贝 叶 斯 











整体 -部 分 关系 ， 方 向 是 从 句子 到 单 
组 合 起 来 ， 创 建 了 








句子 的 传达 : 


仔细 观察 这 个 例子 ， 就 可 以 看 到 造句 的 过 程 ， 整 个 句子 的 含义 在 


和 马尔 科 夫 网 


图 所 示 。 说 话 者 对 整 句 话 的 含义 心中 有 数 ， 从 这 个 含义 中 ， 











整体 


试图 表达 
的 含义 





词 。 然 


一 个 部 分 -整体 关系 。 








已 ， 








络 建立 依赖 性 模型 

















Wn 
他 人 听 到 了 这 个 句子 。 这 个 人 将 单词 的 含义 
整体 





这 些 单 





说 话 者 试图 














在 理解 句子 的 过 程 








制作 某 种 事物 的 时 候 ， 首 先 会 生成 一 般 /抽象 /整体 ， 然 后 
当 您 生成 打印 
0 机 各 个 部 件 的 


分 的 产品 。 
及 关于 打 晶 
乓 [入 




















体 的 考试 








分 的 特殊 / 具 
问题 的 用 户 可 能 
字母 级 别 。 


为 止 ， 您 假定 变量 
一 个 函数 形式 3 


提供 





| 





了 名 子 的 含义 是 在 


单独 的 单 


词 之 后 感觉 到 的 。 这 不 是 一 















单独 单 











表达 的 整 句 话 含义 生成 单词 ( 部 分 )， 
词 生成 了 听 者 所 感觉 到 的 整 句 含义 


词 之 前 产生 。 但 是 


























机 时 ， 
































先生 成 打印 
详细 信息 。 类 似 地 ， 
成 绩 。 另 一 方面 ， 当 您 理解 和 # 











羊 弓 








体 庙 














以 二 
所 以 ， 经 验 法 则 如 下 。 


信息 ， 然 
般 的 方式 总 结 ， 给 








学 生计 








条 铁 律 ， 但 是 在 你 





























几 的 一 般 分 类 。 然 


吾 加 以 精练 ， 产 生 特 


殊 / 具 体 /详细 /多 部 

















后 生成 打印 








机 的 具体 型 号 ， 以 


























成 学 生 时 ， 

















ee 


区 








首先 生成 学 生 的 





三 




















后 衍生 和 总 / 芭 垣 结 关于 整体 的 般 / 
定 级 别 的 教师 可 能 首先 观察 考试 成 绩 ， 然 














象 











告 某 个 事物 时 ， 首 先 感受 型 
属性 。 例 如 





的 是 关于 其 各 个 部 























， 遭 遇 特 殊 打 印 机 
后 报告 








如 果 您 打算 建立 属性 定义 的 模型 ， 依 赖 性 从 一 般 、 抽 象 或 者 整体 概念 指向 特殊 、 具 体 或 者 
部 分 。 如 果 打 算 建 立 属性 理解 和 报告 的 模型 ， 依 赖 性 从 特殊 、 具 体 或 者 部 分 指向 一 般 、 抽 象 或 
者 整体 。 


如 前 所 述 ， 如 果 您 
除了 这 个 规则 之 外 ， 即 使 有 经 验 的 建 模 人 员 在 依赖 性 的 正 
希望 这 个 经 验 法 则 能 够 




















里 解 了 主要 的 





直 | 
玫 


助 您 构建 模 


Figaro 中 的 有 向 依赖 性 


记得 








概率 模型 的 4 种 成 分 吗 ? 
时 是 以 依赖 性 为 中 心 的 。 

















指定 数值 参数 。 























大 











它们 


FL 
型 。 





果 关 系 ， 几 平 在 任何 时 候 都 能 发 现 正 确 的 方向 。 


















































确 方向 上 都 无 法 达成 一 致 。 我 
、 依 赖 性 、 函 数 形式 和 数值 参数 。 到 目前 
您 希望 在 Figaro 中 表达 这 些 依赖 性 时 ， 需 要 
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您 可 以 用 多 种 方法 在 Figaro 中 表达 有 向 依赖 性 。 一般 的 原则 是 使 用 某 种 Chain 元 素 
作为 函数 形式 。Chain 有 两 个 参数 : 

加 父 元 素 。 

量 ”从 父 元 素 值 到 结果 元 素 值 的 链 函 数 。 

Chain(parentElement，chainFunctiom) 定 义 如 下 的 生成 过 程 : 从 parentElement 获得 父 
元 素 的 一 个 值 ， 然 后 应 用 chainFunction 得 到 resultElement， 最 后 从 resultElement 得 到 一 
个 值 。 

























































































j Chain 表达 有 向 依赖 性 时 ，parentElement 自然 是 父 元 素 。 链 函数 指定 对 于 每 个 父 
元 素 值 ， 子 元 素 上 的 概率 分 布 。Figaro 有 许多 结构 使 用 Chain， 所 以 在 许多 情况 下 ， 尽 
管 看 上 去 不 像 ， 但 是 使 用 的 仍然 是 Chain。 

下 面 是 一 些 等 价 的 例子 ， 它 们 都 表示 ， 如 果 打 印 机 电源 按钮 关闭 ， 打 印 机 绝对 会 停 
机 ， 但 是 如 果 电 源 按 钮 打开 ， 打 印 机 可 能 正常 运行 ， 也 可 能 停机 。 


Na 









































































































































使 用 Chain 
val PrinterPowerButtonon = Flip(0.95) 
父 元 素 
val PrinterState = 链 函 数 参数 
EB 兮 
Chain (PrinterPowerButtonony St 
(on: Boolean) => 村 = 
if (on) Select (0.2 -> 'down, 0.8 -> 'up) 
yb 
使 用 下 else Constant ('down) 链 函 数 体 
WA 一 > val printerState = 
父 元 素 人 
> If (printerPowerButtonon, 使 用 CPD 
Select (0.2 -> ‘'down, 0.8 -> "upP)， 
= i> Constant ('down)) 
父 元 素 | 
为 真 时 父 元 素 为 假 时 的 结果 
的 结果 
val printerState = | 父 元 素 
CPD (PrinterPowerButtonony 
false -> Constant ('down), 规定 父 元 素 为 假 时 结 
规定 父 元 -一 [> true -> Select (0.2 -> 'down, 0.8 -> 'up)) 果 的 子 句 
素 为 真 时 | 
结果 的 val PrinterState = 3 | 使 用 RichCPD 
子 句 i> RichCPD (PrinterPowerButtonony 


Oneof (false) -> Constant ('down), 


规定 父 元 素 值 在 集合 


* -> Select(0.2 -> 'down, 0.8 -> 'up)) 
让 各 守 志 RE {false} 中 时 结果 的 子 句 
父 元 素 规定 父 元 素 值 是 任何 > 


其 他 值 时 结果 的 子 句 

















































































































































































































































































































122 第 5 章 用 贝 叶 斯 和 马尔 科 夫 网 络 建立 依赖 性 模型 
如 前 所 述 ， 有 一 类 非 对 称 关 系 出 现在 参数 和 依赖 该 参数 的 变量 之 间 ， 如 硬币 的 偏差 
和 撕 币 结果 。 同 样 ， 这 可 以 使 用 Chain 或 者 原子 元 素 的 复合 版 本 表达 。 下 面 是 两 个 等 价 
的 例子 : 
val toss = Chain (bias， (d: Double) => Flip(d)) 
val toss = Flip (bias) 
5.1.2 无 向 依赖 性 
您 已 经 了 解 ， 有 向 依赖 性 可 以 表示 各 种 不 对 称 关 系 。 无 向 依赖 性 建立 变量 之 间 无 明 
显 方向 关系 的 模型 。 这 种 关系 称 作对 称 关 系 。 如 果 您 的 变量 相互 关联 ， 但 是 没有 一 个 变 
量 在 另 一 个 变量 之 前 生成 的 明显 生成 过 程 ， 那 么 无 向 依赖 性 可 能 更 合适 。 对 称 关 系 可 能 
以 两 种 形式 出 现 。 
国 ”相同 原因 产生 的 两 种 结果 ， 原 因 没有 明确 的 模型 一 一 例如 ， 同 一 个 值 的 两 种 计 
量 且 您 没有 用 于 该 值 的 变量 时 ， 或 者 相同 事件 的 两 种 结果 且 没 有 用 于 该 事件 的 
变量 时 很 明显 ,如果 您 不 知道 事件 的 潜在 值 ， 这 两 种 计量 或 者 结果 是 相关 的 。 


想象 一 下 , 在 打印 机 的 例子 中 , 您 有 两 个 不 同 的 变量 














如 果 没 有 








有 











个 表示 打包 














您 可 


中 用 会 


根源 比 结果 复杂 得 多 ， 





『 台 上 人 


问 ， 为 什么 我 人 














































































































儿 状 态 的 变量 ， 这 两 个 变量 是 相关 的 ， 
相同 潜在 根源 的 打印 事务 的 两 个 方面 。 


] 不 在 模型 中 包含 用 于 根源 的 变量 





























难以 精确 





在 本 











， 您 将 看 至 














了。 


MN 


图 像 是 复 








人 外 


侍 场 景 的 





建立 图 像 中 像素 间 关 系 的 模型 要 


同一 个 已 知 结果 的 两 个 原因 
役 有 关系 。 例 如 ， 打 印刷 
进 纸 器 状态 和 墨 粉 水 平 
不 佳 , 进 纸 器 的 状态 和 显 
































， 但 是 








维 效果 。 





打印 质量 和 打印 速度 。 
羽 为 它们 是 可 能 

















能 是 ， 这 个 


像 重 现 的 例 


? 答案 可 


| 一 个 图 


























创建 三 维 场景 的 正确 





概率 模型 ， 可 能 比 














困难 得 多 。 

















这 种 关系 很 有 趣 。 通 
儿 的 进 纸 器 状态 和 











0 硒 齐 


常 ， 同 

















结 :4 


吉 果 的 两 个 原因 




















AE 








是 相互 狐 





黑 粉 水 3 
Fh 立 的 。 不 过 ， 如 果 您 知道 打印 机 
有 粉 水平 突 然 变 成 相关 的 。 如果 














打 E 











致 您 认为 打印 质量 不 佳 
站 机 的 整体 状态 是 结果 ， 而 墨 











的 原 医 









































模型 之 外 的 性 
在 Figaro 中 表达 无 向 
在 Figaro ! 





在 5.2.3 小 节 中 您 将 更 讨 
这 就 变 成 了 两 个 原因 之 间 的 对 称 关 系 。 但 
和 况 不 太 多 见 。 


已 知 的 情况 下 ， 这 万 









































依赖 性 

















个 原 


大 | 








就 变 成 相关 








# 细 地 学 习 这 种 依赖 性 。 


平 都 影响 打印 机 的 整 




















知道 墨 粉 不 足 ， 





是 墨 粉 不 足 而 不 是 进 纸 不 畅 。 在 这 个 例 
和 粉 水 平和 进 纸 器 状态 





已 
已 


是 可 能 的 原因 ， 在 








的 。 这 是 诱导 依赖 性 的 一 个 例子 ， 






































如 果 您 








您 没有 用 














是 将 两 个 原 


大 











， 您 可 以 用 两 种 方法 表达 对 称 关 系 : 约束 和 条 件 。 这 两 种 方法 各 


造成 的 共同 结 




















于 该 结果 的 变量 ， 
果 排 除 在 




















9 利 次 。 








约束 方法 的 好 处 是 概念 较为 简 
问 ， 因 此 不 能 在 Figaro ! 





5.1 建立 依赖 性 模型 


















































两 种 方法 的 基本 原理 类 似 。5.5 节 详 细 描 述 了 











一 个 简单 的 版 本 。 当 两 个 
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无 向 依赖 性 





变量 之 间 存 在 某 种 无 向 依赖 性 时 ， 两 


单 。 但 是 约束 中 出 现 的 数字 是 硬 编码 的 ， 学 习 算 法 无 法 访 
学 习 到 。 使 用 条 件 方法 的 好 处 是 数值 可 以 学 习 。 























的 编码 方法 ， 但 是 这 里 有 
个 变量 值 的 某 些 组 合 比 其 





























他 组 合 更 常见 。 这 可 以 通过 对 不 同 组 合 指定 权重 实现 。 约 束 通过 指定 两 个 变量 值 的 某 个 

















组 合 到 表达 该 值 权 重 的 实数 之 间 的 一 个 函数 ， 编 码 了 这 些 权 重 。 在 条 件 方法 中 实际 上 编 
但 是 采用 了 更 复杂 的 方式 。 
例如 ， 我 们 编码 图 像 中 两 个 相 邻 像素 之 间 的 关系 。 这 些 关 系 有 “其 他 所 有 条 件 都 相 


码 了 相同 信息 ， 





可 


”的 特性 。 例 如 ， 您 可 

































































下 面 是 在 





colorl 和 color2。 为 了 伪 





























的 达到 3 倍 。 



































影响 两 个 像 


能 认为 ， 在 其 他 条 件 都 相同 的 情况 下 ， 两 个 像素 颜色 相同 的 概 
率 3 倍 于 颜色 不 同 的 概率 。 实 际 上 ， 许 多 关系 可 能 
同 颜色 的 概率 并 没有 真 


素 的 颜色 ， 所 以 它们 有 相 





Figaro 中 用 约束 方法 表达 这 种 关系 的 方式 。 我 们 将 两 个 像素 的 颜色 称 作 

















1 子 的 简单 ， 您 将 假定 颜色 




















是 布尔 变量 


。 记 住 ， 约 束 是 从 一 个 元 








素 值 到 双 精 度 类 型 值 的 函数 。 您 必须 创建 一 个 表示 colorl 和 color2 配对 的 元 素 ， 以 便 对 








该 配对 指定 约束 。 代 码 如 下 : 


import com.cra.figaro.1ibrary.compounad.^^ 


val pair = ^^ 人 ( 


colorl, color2) 


< ^ 是 Figaro 配对 构造 程序 


现在 ， 您 必须 定义 实现 约束 的 函数 : 





def sameColorConstraint (pair: 


(Boolean, Boolean)) 


if (Pair._ 1 == pair._ 2) 0.3; else 0.1 


最 后 ， 对 颜 人 


pair.setConstr 


Figaro 对 这 个 约束 的 解释 ] 
分 相等 换言之， 两 个 颜色 相同 ) 的 概率 3 倍 于 两 者 不 





aint (sameColorConstraint _) 


色 配 对 应 用 约束 : 


br 




















义 ， 这 些 约束 共同 地 以 正确 

















这 个 测试 检查 配对 的 第 一 
部 分 是 否 等 于 第 二 部 分 




















下 划 线 表示 您 想 要 的 是 函 
数 本 身 ， 而 不 是 应 用 它 


E 如 您 的 预想 。 在 其 他 条 件 相 同 的 情况 下 ， 配 对 的 两 个 部 






































埋藏 在 约束 函数 内 ， 所 以 它们 无 法 从 数据 中 学 习 。 


对 于 条 件 方法 ， 我 将 展示 代码 ， 然 后 解释 其 
助 的 布尔 型 元 素 ， 称 作 sameColorConstraintValue 。 
值 。 最 后 ， 添 加 一 个 条 伯 








上 ， 规定 这 个 




















司 的 概率 。 正 如 5.5 小 节 中 的 定 























的 方式 定义 了 概率 分 布 。 但 是 很 遗憾 的 是 ， 数 值 0.3 和 0.1 




















E 确 工作 的 原因 。 首 先 ， 定 义 一 个 辅 







































































然后 定义 


其 为 true 的 概率 为 约束 的 

















甫 助 元 素 必 须 为 true。 这 可 以 用 一 个 观测 值 实现 : 
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val sameColorConstr 
Chain(colorl, col 
(b1: 

IE (bl == 


Boolean, b2: 








草 








贝 叶 





5 用 





aintValue 
Or2p 
=> 


else Flip(0.1)) 


Boolean) 


b2) Flip(0.3); 


sameColorConstraintValue.observe (true) 














和 马尔 科 夫 网 络 建立 依赖 性 模型 

















段 代 码 与 约束 的 版 本 等 价 。 要 明白 这 一 点 ， 就 需要 知道 条 件 导致 任何 违反 条 件 的 
值 取 概率 0， 否 则 概率 为 1。 任 何 状态 的 概率 通过 组 合 来 自 元 素 定 义 和 条 件 或 约束 的 概 














率 得 到 。 例如, 假定 
































两 个 颜色 相同 。 使 用 Chain 


























的 定义 ，sameColorConstraintValue 为 true 
的 概率 是 0.3, 为 false 的 概率 是 0.7。 如 果 sameColorConstraintValue 为 true， 条 件 的 概率 










































































































































































为 1， 而 如 果 sameColorConstraintValue 为 false， 条 件 的 概率 为 0。 因 此， 这 个 条 件 的 组 
合 概率 为 (0.3 x 1) + (0.7 x 0) = 0.3。 类 似 地 , 如 果 两 个 颜色 不 相同 , 组 合 概率 为 (0.1 x 1) + 
(0.9x0) = 0.1。 可 以 看 到 ， 在 其 他 条 件 都 相同 的 情况 下 ， 颜 色相 同 的 可 能 性 3 倍 于 颜色 
不 同 的 可 能 性 。 这 和 使 用 约束 时 得 到 的 结果 相同 。 

使 用 条 件 的 构造 一 般 足 以 覆盖 所 有 非 对 称 关 系 。 可 以 看 出 ， 这 种 方法 的 好 处 是 数值 
0.3 和 0.1 在 Flip 元 素 中 ， 您 可 以 使 它们 取决 于 模型 的 其 他 方面 。 例 如 ， 假 定 您 希望 学 
习 两 个 相 邻 元 素颜 色相 同和 颜色 不 同 的 可 能 性 比率 ， 可 以 创建 一 个 元 素 ， 使 用 Beta 分 
布 表示 这 个 权重 。 然 后 ， 您 可 以 在 Flip 中 用 这 个 元 素 代替 0.3。 这 样 ， 根 据 数 据 ， 可 以 
学 习 到 权重 值 上 的 一 个 分 布 。 





5.1.3 直接 和 间接 依赖 性 




































































































































































在 转向 贝 叶 斯 和 马尔 科 夫 网 络 之 前 ， 我 希望 介绍 一 个 重点 。 型 的 概率 模型 有 许多 
对 变量 ， 对 一 个 变量 的 认识 会 改变 您 对 其 他 变量 的 观念 。 从 定义 上 说 ， 这 些 都 是 变量 之 
间 的 依赖 性 。 但 是 大 部 分 依赖 性 是 间接 的 : 它们 不 会 直接 出 现在 两 个 变量 之 间 ， 而 是 通 
过 某 些 中 介 变 量 起 作用 。 确 切 地 讲 ， 关 于 第 一 个 变量 的 知识 改变 您 对 第 二 个 变量 的 观念 
的 原因 是 ， 关 于 第 一 个 变量 的 知识 改变 了 您 对 中 介 变 量 的 观念 ， 进 而 改变 了 对 第 二 个 变 
量 的 观念 。 

例如 , 图 5-2 中 有 3 个 变量 : Printer Power Button On (打印 机 电源 按钮 开启 )、Printer 
State (打印 机 状态 ) 和 Number of Printed Pages (打印 页 面 数量 )。 很 明显 ，Printer Power 


Button On 和 Number of Printed Pages 有 依赖 性 。 如 果 您 知道 ! 






































页 面 数 为 0。 但 是 在 
性 经 过 了 一 个 中 介 
变 关 于 
他 3 














变量 Printer State。 
F Number of Printed Pages 的 观 
而 改变 了 关于 
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E 源 按钮 关闭 , 将 认为 打印 











于 Printer 











观念 ， ER 大 | 是 它 





f 先 改变 

















人 已 
Number of Printed Pages 上 

















打印 机 停机 ， 使 您 


日 信 不 会 打印 任何 页 面 。 





， 从 Printer Power Button On 到 Number of Printed Pages 的 依赖 


Power Button On 的 知识 改 


了 您 关于 Printer State 的 观 

















的 观念 。 如 果 您 知道 电源 按钮 关闭 ， 说 明 
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Printer Power Button On 


Number of Printed Pages 








图 5-2 Printer Power Button On 和 Number of Printed Pages 
通过 中 介 变 量 产生 间接 关系 


术语 警告 : 之 前 我 曾经 谈 到 过 有 向 和 无 向 依赖 性 ， 现 在 谈论 的 则 是 直接 和 间接 依赖 性 。 尽管 名 

称 类 似 ， 但 是 它们 的 含义 不 同 。 直 接 依赖 性 直接 出 现在 两 个 变量 之 间 ， 其 反义词 是 间接 
农 赖 性 ， 通 过 中 介 变 量 体 现 。 有 向 依赖 性 具有 从 一 个 变量 到 另 一 个 变量 的 方向 ， 而 无 向 
农 赖 性 正 相 反 ， 没 有 任何 方向 。 您 可 能 会 遇 到 直接 无 向 依赖 性 和 间接 有 向 依赖 性 。 


我 们 再 来 看 看 另 一 个 例子 ， 这 次 涉及 的 是 无 向 依赖 性 。 之 前 ， 我 曾经 提供 了 一 个 图 
像 中 相 邻 像素 之 间 无 向 依赖 性 的 例子 。 不 相 邻 的 像素 又 是 什么 样 的 情况 呢 ? 考虑 图 5-3 
中 的 例子 。 如 果 您 知道 像素 11 是 红色 的 ， 这 将 会 导致 您 相信 像素 12 可 能 是 红色 的 ， 相 
应 地 让 您 相信 像素 13 很 可 能 是 红色 的 。 这 是 间接 依赖 性 的 明显 例子 ， 因 为 关于 像素 11 
的 知识 只 有 通过 中 介 变 量 〈 像 素 12) 才能 影响 对 像素 13 的 观念 。 

重要 的 是 认识 您 的 领域 中 ， 哪 些 依赖 性 是 直接 的 ， 哪 些 是 间接 的 。 在 贝 叶 斯 和 马尔 
科 夫 网 络 中 ， 您 都 创建 一 个 图 ， 图 中 变量 之 间 的 边 表 示 依 赖 性 。 在 贝 叶 斯 网 络 中 ， 这 些 
边 都 是 有 向 边 ， 而 在 马尔 科 夫 网 络 中 则 是 无 向 边 。 您 只 对 直接 依赖 性 绘制 边 。 如 果 两 个 
变量 只 有 间接 依赖 性 ， 两 者 之 间 就 没有 边 。 


图 5-3 ”像素 11 和 像素 13 通过 中 介 变 量 像素 12 产生 间接 关系 


接 下 来 ， 您 将 研究 贝 叶 斯 网 络 和 马尔 科 夫 网 络 ， 前 者 是 表示 有 向 依赖 性 的 模型 ， 后 
者 则 是 表示 无 向 依赖 性 的 模型 。 但 是 ， 我 要 指出 ， 仅 因为 有 向 和 无 向 依赖 性 各 有 不 同 的 
建 模 框 架 ， 并 不 意味 着 必须 为 您 的 模型 选择 其 中 一 种 框架 。 其 他 的 框架 在 单一 模型 中 组 
合 了 两 类 依赖 性 。 在 概率 程序 中 这 很 容易 做 到 : 使 用 元 素 的 生成 定义 编码 有 向 依赖 性 ， 
并 添加 用 于 表示 无 向 依赖 性 的 约束 。 
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5.2 ”使 用 贝 叶 斯 网 络 
您 已 经 知道 ， 编 码 变 量 之 间 的 关系 ， a ee he ene 在 本 节 中 ， 您 将 
学 习 用 有 向 依赖 性 编码 不 对 称 关 系 的 标准 框架 络 。 在 第 4 章 中 的 伦 勃 朗 示 
例 中 已 经 看 到 了 贝 叶 斯 网 络 。 本 节 提 供 更 全 面 的 介绍 ， RE 
整定 义 和 解 释 。 
5.2.1 贝 叶 斯 网 络 定义 
贝 叶 斯 网 络 是 由 3 个 部 分 组 成 的 概率 模型 表现 形式 。 
图 一 组 具有 对 应 定义 域 的 变量 。 
里 ”一 个 有 向 非 循环 图 ， 每 个 变量 是 图 的 一 个 节点 。 
加 ”每 个 变量 在 其 父 变 量 Re 的 条 件 概率 分 布 (CPD )。 
一 组 具有 对 应 定义 域 的 变 


图 5-4 中 的 例子 显示 3 个 变量 





区 : 


Subject、 





该 变量 的 可 能 值 。Subject 的 定义 域 是 {People，Landscape}， 
Brightness 的 定义 域 是 {Dark, Bright}。 





Medium, Large}, 


Size 和 Brightness。 变 量 的 定义 域 规定 了 
Size 的 定义 域 是 {Small, 


Subject 的 概率 值 


People 
0.8 


0.2 


给 定 Subject 情 况 下 Size 的 概率 值 














Subject 
Small | Medium | Large 
People 0.25 0.25 0.5 
Landscape ”0.25 0.5 0.25 
图 5-4 





Landscape 


给 定 Subject 情 况 下 Brightness 的 概率 值 








Subject Brightness 
Dark Bright 

People 0.8 0.2 

Landscape 0.3 0.7 





一 个 三 节点 贝 叶 斯 网 络 
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有 向 非 循环 图 

有 向 意味 着 图 中 的 每 个 边 都 有 方向 ， 它 从 一 个 变量 指向 另 一 个 变量 。 第 一 个 变量 称 
为 父 变量 ， 第 二 个 变量 称 为 子 变量 。 在 图 5-4 中 ，Subject 是 Size 和 Brightness 的 父 变 
量 。 非 循环 意味 着 图 中 没有 环 : 没有 沿 箭头 方向 的 有 向 环 ; 您 不 能 从 一 个 节点 开始 ， 沿 
着 箭头 回 到 同一 个 节点 。 但 是 可 以 有 无 向 环 ， 即 忽略 方向 的 情况 下 可 以 有 环 。 这 一 概念 
在 图 5-5 中 说 明 。 左 侧 的 图 有 一 个 有 向 环 : A-B-D-C-A。 在 右 侧 的 图 中 ， 环 A-B-D-C-A 
有 时 候 与 第 头 的 方向 相反 ， 所 以 它 是 一 个 无 向 环 。 因 此 ， 左 侧 的 图 是 不 允许 的 ， 但 是 右 
侧 的 图 是 合法 的 。 这 一 点 很 重要 ， 因 为 以 后 当 您 使 用 无 向 边 表达 对 称 依赖 性 时 ， 就 可 以 
使 用 无 向 环 。 


Bl 地 一 



















































































































































































有 向 环 无 向 环 
图 5-5 有 向 环 是 沿 箭头 方向 并 终止 于 起 点 的 环 
变量 上 的 条 件 概率 分 布 























CPD 描述 在 父 变 量 值 给 定 的 情况 下 子 变 量 的 概率 分 布 。 这 种 CPD 考虑 了 父 变 量 的 
每 个 可 能 值 ， 父 变量 可 能 是 定义 域 中 的 任何 值 。 对 于 每 个 赋值 ， 它 都 定义 了 子 变量 上 的 
一 个 概率 分 布 。 在 图 5-6 中 ， 每 个 变量 都 有 一 个 CPD。Subject 是 网 络 的 根 ， 所 以 它 没 有 
父 变 量 。 当 一 个 变量 没有 父 变 量 时 , CPD 指定 变量 上 的 单一 概率 分 布 。 在 本 例 中 , Subject 
取 值 People 的 概率 为 0.8， 取 值 Landscape 的 概率 为 0.2。Size 的 父 变量 为 Subject， 所 以 
CPD 对 每 个 Subject 的 值 有 一 行 。CPD 说 明 ， 当 Subject 取 值 为 People 时 ，Size 上 的 概 
率 分 布 为 : 取 值 Small 的 概率 为 0.25，Medium 的 概率 为 0.25，Large 的 概率 为 0.5。 当 
Subject 取 值 为 Landscape 时 ,Size 有 不 同 的 分 布 。 最 后 , Brightness 的 父 变量 也 为 Subject， 
它 的 CPD 对 每 个 Subject 值 也 有 一 行 。 




















































































































5.2.2” 贝 叶 斯 网 络 如 何 定义 概率 分 布 


贝 叶 斯 网 络 的 定义 已 经 全 部 介绍 完毕 。 下 面 ， 我 们 来 看 看 贝 叶 斯 网 络 是 如 何 定义 概 
率 分 布 的 。 您 需要 做 的 第 一 件 事 是 定义 可 能 世界 。 对 贝 叶 斯 网 络 来 说 ， 可 能 世界 由 每 个 
变量 的 赋值 组 成 ， 确 保 每 个 变量 都 在 其 定义 域内 。 例 如 ，<Subject = People, Size = Small, 
Brightness = Bright> 就 是 一 个 可 能 世界 。 
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P(Subject = People) 


People Landscape 
0.8 0.2 





People 


Small Bright 
P(Size = Smalll P(Brightness = Brightl 
Subject = People) Subject = People) 


Small | Medium 
People 0.25 0.25 


People 





Landscape 0.25 0.5 


Landscape 





Dark 
0.8 
0.3 







Brightness 
Bright 
02 
0 













P(Subject = People, Size = Small, Brightness = Bright) = 0.8 x 0.25 x 0.2 = 0.04 





图 5-6 将 每 个 CPD 中 的 对 应 输入 项 相 乘 ， 计 算 可 能 世界 的 概率 





接 下 来 ， 定 义 可 能 世界 的 概率 。 这 很 简单 。 您 所 需要 做 的 只 是 确定 每 个 变量 CPD 


中 与 可 能 世界 中 的 父 变 量 和 子 变量 值 匹配 的 条 目 。 这 一 过 程 如 














图 5-6 所 示 。 例 如 ， 对 于 





可 能 世界 <Subject = People, Size = Small, Brightness = Bright>，Subject 的 输入 项 为 0.8， 

这 可 以 从 标记 为 People 的 列 中 找到 。 对 于 Size， 您 可 以 查看 对 应 于 Subject = People 的 
行 和 对 应 于 Size = Small 的 列 ， 得 到 输入 项 0.25。 最 后 ， 对 于 Brightness， 您 仍然 查看 对 
应 于 Subject = People 的 行 ， 这 次 取 标 记 为 Bright 的 列 ， 获 得 输入 项 0.2。 将 这 些 输入 项 














相 乘 ， 得 到 可 能 世界 的 概率 0.8 x 0.25 x 0.2 = 0.04。 


























对 每 个 可 能 世界 执行 这 一 过 程 ， 概 率 总 和 将 为 1， 这 是 应 有 的 结果 ， 对 于 贝 叶 斯 网 
络 来 说 总 是 如 此 。 这 样 ， 您 就 看 到 了 贝 叶 斯 网 络 定义 有 效 概率 分 布 的 方式 。 理 解 了 贝 叶 
斯 网 络 的 组 成 和 含义 之 后 ， 我 们 来 看 看 如 何 使 用 这 种 网 络 ， 根 据 其 他 变量 的 知识 得 出 对 























5.2.3 用 贝 叶 斯 网 络 进行 推理 























贝 叶 斯 网 络 编码 变量 之 间 的 许多 独立 性 。 回 忆 一 下 ， 两 个 变量 之 间 的 独立 性 意味 着 




















学 习 到 一 个 变量 的 相关 知识 ， 不 能 为 您 提供 任何 关于 其 他 变量 的 新 信息 。 从 前 面 的 例子 





可 以 看 到 ， 
有 打印 任何 页 
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2 使 


用 贝 叶 斯 网 络 




















复杂 ， 所 以 我 






































不 提供 了 








基本 的 
理 可 能 沿 着 
直接 和 间接 





引路 是 ， 才 








推理 ; 














的 段落 























EE 
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里。 























并 展示 几 个 例子 。 

















量 到 





男 








变量 
从 Size 流 





县 








FP 您 已 经 看 到 了 这 利 

















从 一 个 变量 流 




















量 。 在 贝 叶 
在 大 部 分 


是 








向 男 一 个 变量 。 





情况 下 ， 如 果 变 量 


不 会 改变 对 Brightness 的 观念 。 


Brightness。 在 我 们 的 模型 


Hi 





在 这 个 例子 


， 画 家 选择 的 3 
































男 一 利 


的 路 径流 动 。 在 
向 Brightness。 

Fh 思路 。 在 间接 依赖 性 中 , 推 
PP，Subject 是 Size 和 Brightness 之 间 的 中 介 变 
斯 网 络 中 ， 只 要 这 条 路 径 不 会 在 某 个 变量 上 阻塞 ， 推 到 
需要 观测 ， 则 路 径 被 阻 
测 ， 路径 Size-Subject-Brightness 被 阻塞 。 这 意味 着 ， 如 


说 法 是 ，Size 在 Subject 





这 一 标 





























里 通过 

















图 5-4 的 例子 中 ， 推 
在 5.1.3 小 节 中 关于 
寸 中 介 变 量 


Number of Printed Pages 和 Printer Power Button On 不 是 独立 的 。 当 您 知道 没 
掉 时 ， 电 源 按钮 开启 的 概率 就 下 降 了 。 

条 件 独立 性 与 此 类 似 。 如 果 在 第 三 个 变量 已 知之 后 ， 学 习 到 第 一 

能 为 您 提供 第 二 个 变量 的 任何 相关 信息 ， 则 两 个 变量 
d- ， 了 贝 叶 斯 网 络 中 的 两 个 变量 何 时 条 件 独立 于 第 三 组 变量 6 
E 式 的 定义 ， 而 是 描述 基本 原理 
台 着 从 一 个 变 引 
Size-Subject-Brightness 的 路 径 ， 
依赖 性 


个 变量 的 相关 知识 
E 给 定 的 第 三 变量 下 条 件 独立 。 


k 准 有 点 


























给 定 的 情 


























题 之 后 ， 尺 寸 和 鲜艳 度 是 独立 生成 的 。 





会 聚 箭头 
另 一 种 情 
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。 您 有 一 个 






































然 是 Brightness 的 原 
到 Brightness 的 有 向 边 。 
从 Subject 和 Material 出 发 的 边 会 


和 诱导 依赖 性 
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新 的 变量 Material ( 材 
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FE 题 决定 了 夯 














情况 下 ， 如 
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个 子 变 量 
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两 个 父 








于 Brightness。 


列子 ( 妇 
艳 ), 所 以 网 络 ! 
EE ， 称 为 会 肾 箭 头 模 式 ， 





E 
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变量 不 能 观测 ， 








水 彩 或 者 其 人 


本 二 

















就 可 以 沿 着 路 径 前 进 。 














。 所 以 ， 如 果 Subject 需要 观 
果 Subject 也 被 观测 ， 则 观测 Size 
况 下 条 件 独 立 于 
的 尺寸 和 鲜艳 度 ， 但 是 在 选择 3 





则 一 条 路 径 被 
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Material 












































1 图 5-7 所 示 )， 以 描述 这 利 
也 材料 。Material 
条 从 Material 





情 





胃 为 


























图 5-7 ”扩展 的 绘画 示例 ， 包 括 同一 子 变量 的 两 个 父 变 量 之 间 的 会 聚 箭头 
现在 , 我们 考虑 一 下 Subject 和 Material 之 间 的 推理 。 根 据 模型 ，Subject 和 Material 
是 独立 生成 的 。 所 以 以 下 事实 成 立 。 
(1) 在 没有 观察 到 任何 证 据 时 ，Subject 和 Material 是 独立 的 。 
但 是 ， 当 您 观察 到 画作 是 鲜艳 的 时 ， 会 发 生 什 么 呢 ? 根据 我 们 的 模型 ， 风 景 画 通常 
比 人 物 画 更 鲜艳 。 在 观察 到 画作 是 鲜艳 的 之 后 ， 您 将 推理 ， 这 幅 画 画 更 有 可 能 是 风景 画 。 
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模型 


假定 之 后 您 观察 到 这 幅 画 是 油画 ， 这 种 画 也 更 可 能 有 鲜艳 的 色彩 。 这 个 观测 值 提 供 了 画 
作 鲜 艳 度 的 另 一 个 解释 。 因 此 ， II ns a 观察 到 


该 画 是 















































是 油画 之 前 相 比 有 所 降低 。 





























径 ， 从 Material 流向 Subject。 所 以 ， 您 得 到 了 如 下 的 陈述 : 


(2) 在 Brightness 





两 个 








变量 









































时 之 间 的 路 径 可 能 既 包 含 常 规模 式 ， 又 包含 会 聚 


























条 路 径 在 中 介 变 量 不 能 测 得 时 阻 


两 个 变量 之 间 的 依赖 性 是 对 第 三 


给 定 的 情况 下 ，Subject 和 Material 不 是 条 件 独 立 的 。 
您 现在 所 拥有 的 模式 与 通常 的 模式 相反 。 有 一 

在 观测 到 该 变量 时 畅通 。 这 种 情况 称 作 诱 导 依赖 性 
个 变量 的 观测 所 诱导 的 。 贝 叶 斯 网 络 中 任何 会 聚 箭头 模式 都 可 能 导致 诱导 依赖 性 。 






























































箭头 。 沿 该 路 径流 动 的 推理 只 
有 在 路 径 上 的 任何 节点 都 没有 被 阻塞 时 才能 进行 。 图 5-8 展示 了 Size-Subject-Brightness- 








您 可 以 看 到 ， 推 理 沿 着 Material-Brightness-Subject 的 路 


> 


品 





Material 路 径 的 4 个 例子 。 在 左上 角 的 例子 中 ，Subject 和 Brightness 都 没有 观测 到 ， 该 路 
径 在 Brightness 上 被 阻塞 ， 因 为 它 有 会 聚 箭头 。 在 右 侧 的 下 一 个 例子 中 观测 到 了 Subject， 


所 以 路 径 
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观 涡 
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右 下 角 的 例子 中 除了 Subject 之 外 ， 还 观测 到 了 Brightness， 








在 Brightness 
上 阻塞 








所 以 路 径 在 此 处 阻塞 。 




















5-8 阻塞 和 畅通 路 径 的 例子 






























子 ， 结 合 了 常规 模式 和 会 聚 箭头 模式 。 每 张 图 展示 了 在 观测 或 者 未 观测 






在 Subject 和 
Brightness 


上 阻塞 


Material 








Material 





在 Subject 
上 阻塞 








Subject 和 Brightness 的 情况 下 ， 从 Size 到 Material 的 路 径 


在 Subject 和 Brightness 上 。 在 左 侧 的 下 一 个 例子 中 ， 没 有 观测 到 Subject 而 
到 了 Brightness， 这 是 路 径 在 Sune 和 Brightness 上 都 没有 阻塞 的 必要 条 件 。 最 后 ， 
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5.3.1 


5.3 ”探索 贝 叶 斯 网 络 的 一 个 示例 








探索 贝 叶 斯 网 络 的 一 个 示例 
您 已 经 学 习 了 贝 叶 斯 网 络 的 基本 概念 





， 让 我 们 来 而 


























我 首先 展示 网 络 的 设计 方法 ， 然 后 展示 | 

















j 网 络 进 行 推理 的 所 有 途径 。 











习 的 讨论 留 到 第 12 章 ， 在 那 








章 中 您 将 探索 参数 学 习 的 一 种 实 
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完 一 个 打印 机 故障 诊断 的 示例 。 


我 将 把 网 络 参 数学 








设计 一 个 计算 机 系统 诊断 模型 





















































































































































用 设计 模式 。 




































































想象 一 下 ， 您 打算 设计 一 个 用 于 技术 支持 的 服务 台 应 用 ， 希 望 帮助 技术 支持 人 员 尽 
快 识别 故障 原因 。 您 可 以 为 这 个 应 用 程序 使 用 一 个 概率 推理 系统 一 根据 由 用 户 和 诊断 
测试 报告 中 提供 的 证 据 ， 确 定 系 统 的 内 部 状态 。 对 于 这 样 的 应 用 ， 使 用 贝 叶 斯 网 络 表示 
概率 模型 是 很 自然 的 。 

在 设计 贝 叶 斯 网 络 时 ， 通 常 采取 三 个 步骤 : 选择 变量 及 对 应 的 定义 域 、 说 明 网 络 结 
构 和 编码 CPD。 您 将 看 到 在 Figaro 中 如 何 完成 这 三 个 步骤 。 

在 实践 中 ， 您 通常 不 以 线性 方式 完成 所 有 步骤 : 选择 所 有 变量 ， 构 建 整 个 网 络 结 
构 ， 然 后 写 下 CPD。 通 常 ， 您 将 一 次 构建 网 络 的 一 小 部 分 ， 并 逐步 求 精 。 在 此 我 们 采 
用 的 就 是 这 种 方法 。 首 先 ， 为 一 般 打 印 机 故障 模型 构建 一 个 网 络 ， 然 后 深入 更 详细 的 





























打印 机 模型 。 
一 般 打 印 机 故障 模型 : 变量 
您 希望 建立 用 户 报告 、 可 能 涉及 的 故障 以 及 导致 这 些 故 障 的 系统 因素 的 模型 ， 并 将 














为 此 引入 变量 。 








本 印 结果 的 总 体 体 验 。 当 





首先 是 Print Result Summary (打印 结果 摘要 )， 这 个 变量 
用户 第 一 次 致电 服务 台 时 ， 他 可 能 只 提 























时 以 高 度 # 








象 的 方式 表示 用 




















户 对 # 

能 结果 有 三 : (1) 打印 很 完美 (ft 

好 (“ 关 ); (3) 完全 不 
接 下 来 考虑 打印 


可 能 为 0、 其 中 一 些 页 面 



































义 将 
能 打印 (“无 ”)。 
结果 的 各 个 具体 方面 ， 包 括 : Number of Printed Pages (打印 页 数 )， 


或 者 所 有 页 面 ; 否 快速 打印 ) 是 一 个 布尔 变 








标记 为 “出 色 ”); (2) 


























Prints Quickly (是 






































量 , 表示 打印 是 否 在 合理 时 间 





























单独 建立 模型 的 原因 之 























可 以 





是 这 档 























何 页 面 ， 可 为 网 络 中 断 。 
上 ， 而 更 ] 户 的 错误 


天。 
台 已 国人 





























但 











打印 了 一 部 分 页 五 








是 如 果 























寻 上 


能 影响 打印 





可 能 为 好 、 差 
Network State (网 络 状态 )， 可 能 

















沼 个 


泗 停 机 ;，Software State (软件 

















的 所 


























为 正常 、 断 续 或 者 ! 





能 打印 ,f 





系统 要 素 ， 包 括 : Printer State (打印 机 


fp 


状态 )， 可 能 为 正确 、 











这 样 的 摘要 。 可 
但 是 效果 不 是 太 








AAA 

















内 完成 ;Good Print Quality (高 质量 打印 ) 也 是 布尔 变量 。 
区 分 不 同 的 故障 。 例 如 ， 如 果 没 有 打印 任 
， 问 题 就 不 太 可 


全 已 
能 出 


在 网 络 








状态 )， 
有 小 故障 或 者 月 演 ; 

















汤 ，User Command Correct ( 
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命令 正确 ) 是 一 个 布尔 变量 。 

一 般 打 印 机 故障 模型 : 网 络 结构 

您 已 经 定义 的 变量 有 三 组 : 抽象 的 打印 结果 摘要 、 打 印 结果 的 各 个 具体 方面 以 及 影 
响 打 印 结果 的 系统 状态 。 相 应 地 ， 将 网 络 设计 为 3 个 层次 ， 是 有 意义 的 做 法 。 这 些 层次 
应 该 采用 什么 顺序 ? 

系统 状态 变量 和 具体 的 打印 结果 变量 之 间 存 在 因果 关系 。 例 如 ，Network State《〈 网 
络 状态 ) 为 中 断 是 无 法 快速 打印 (Print Quickly) 的 原因 。 此 外 ， 单 独 打印 结果 变量 和 
整体 打印 结果 摘要 (Print Result Summary) 之 间 存 在 具体 -抽象 关系 。 在 5.1.1 小 节 中 我 
曾经 讲 过 ， 这 些 关 系 可 能 有 两 个 方向 。 在 我 们 的 应 用 中 ， 您 所 要 建立 的 是 用 户 体验 和 打 
印 结果 报告 的 模型 ， 所 以 根据 我 介绍 的 经 验 法 则 ， 正 确 的 方向 是 从 具体 打印 结果 变量 指 
向 抽象 摘要 。 所 以 ， 我 们 的 网 络 层 次 顺序 为 : (1) 系统 状态 变量 ，(2) 具体 打印 结果 变 
量 (3) 打印 结果 摘要 。 
网 络 结构 如 图 5-9 所 示 。 您 可 以 看 到 3 个 层次 ,但 是 一 个 层次 中 的 每 个 变量 并 不 都 
有 指向 下 一 层次 中 变量 的 边 。 这 是 因为 某 些 打印 和 吉 果 变量 只 依赖 于 一 些 系统 组 件 的 状 
态 。 例 如 ， 打 印 质量 好 坏 取决 于 打印 机 的 状态 ， 但 是 不 取决 于 网 络 。 同 样 ， 根 据 我 们 的 
模型 ， 打 印 速度 只 取决 于 网 络 和 软件 。 这 些 陈述 是 否 正 确 有 待 争论 ; 我 们 所 要 指出 的 要 
点 是 ， 在 任何 应 用 中 ， 可 以 用 参数 删除 某 些 边 。 删 除 一 些 边 的 好 处 是 可 以 得 到 较 小 的 
CPD 。 























































































































































































































































































































Printer state 





图 5-9 我 们 的 计算 机 系统 诊断 模型 中 一 般 打 印 故 障 部 分 的 网 络 结构 








一 般 打 印 机 故障 模型 : CPD 
我 将 通过 Figaro 代码 向 您 展示 CPD 的 设计 ， 确 保 解 释 其 中 最 有 趣 的 项 目 。5.1.1 小 
节 说 明了 用 Figaro 定义 CPD 的 各 种 方法 。 在 此 您 将 使 用 其 中 的 几 种 。 
























































5.3 





探索 贝 叶 斯 网 络 的 


个 示例 


程序 清单 5-1 用 Figaro 实现 一 般 打印 机 故障 模型 


133 

















—i>Val printerState = 
val softwareState = 
Select (0.8 -> 'correct, 0.15 -> 'glitchy, 0.05 -> 'crashed) 对 于 根 变 量 ,我 们 
val networkState = 采用 Select 或 者 
Select (0.7 -> 'up, 0.2 -> 'intermittent, 0.1 -> 'down) Flip 等 原子 CPD 
val userCommandCorrect = 
Flip(0.65) 
val numPrintedPages = 
RichCPD (userCommandCorrect, networkState, 
softwareState, printerState, 
(*¥ Kr * Oneof tout)}) =>» Constant ('zeroG)r numPrintedPages 


(7 


(> 


, Oneof('crashed), 
OneDf( down)y *; *) 


SS Donstanbti(t sero) 


-> Constant (zero), 























用 RichCPD 表示 
用 户 命 令 、 网 络 、 




















(OneOf (false), *, *, *) -> 软件 和 打印 机 状 
Select (0.3 -> 'zero, 0.6 -> 'some, 0.1 -> 'all), 态 上 的 依赖 性 
(QneOF (tue *re wr *) -=> 
Select (0.01 -> 'zero, 0.01 -> 'some, 0.98 -> "'all)) 
val printsQuickly = 
Chain(networkState, softwareState, 
(network: Symbol, software: Symbol) => . . ew 
if (network == 'down || software == 'crashed) printsQuickly 使 
Constant (false) 用 Chain 表 示 网 
else if (network == 'intermittent || software == 'glitchy) 络 和 软件 状态 
Flip(0.5) 上 的 依赖 性 
else Flip(0.9)) 
val goodPrintQuality = gf 
CPD (PrinterStatev goodPrintQuality 
"good -> Flip(0.95), 使 用 简单 的 oD 
"poor -> Flip(0.3), 表示 打印 机 状态 
"out -> Constant (false)) 十 的 依赖 性 
val printResultSummary = 
Apply (numPrintedPages, printsQuickly, goodPrintQuality, 
(pages: Symbol, quickly: Boolean, quality: Boolean) => | printResultSummary 
if (pages == 'zero) 'none 完全 由 其 父 变量 决 
else if (pages == 'some || !quickly || !quality) 'poor 定 , 所 以 使 用 Apply 
else 'excellent) 
上 述 代码 使 用 了 多 种 技术 以 表现 子 变量 与 其 父 变 量 的 概率 依赖 。 


























134 第 5 章 ， 用 贝 叶 斯 和 马尔 科 夫 网 络 建立 依赖 性 模型 

















国 ”numpPrintedPages 用 RichCPD 实现 如 下 逻 辑 : 如 果 打 印 机 状态 为 停机 (out) 或 

者 网 络 状 态 为 中 断 (down) 或 者 软件 崩 演 (crashed)， 不 管 其 他 父 变 量 状态 为 

何 ， 打 印 页 数 均 为 0。 否 则 ， 如 果 用 户 发 出 错误 的 命令 ， 就 不 太 可 能 打印 所 有 

页 面 ， 但 是 如 果 发 出 的 是 正确 的 命令 ， 就 很 有 可 能 打印 所 有 页 面 。 

加 ”printsQuickly 用 Chain 实现 如 下 逻辑 : 如 果 网 络 中 断 或 者 软件 骨 误 ， 打 印 机 的 
打印 速度 肯定 不 快 。 否 则 ， 如 果 网 络 断 断 续 续 或 者 软件 有 小 问题 ， 能 否 快速 
打印 就 不 确定 。 如 果 网 络 和 软件 都 处 于 良好 状态 ， 打 印 通常 很 快 〈 但 是 不 能 
保证 )。 

加 ”goodPrintQuality 使 用 简单 的 CPD。 如 果 打 印 机 停机 , 肯定 不 会 有 高 质量 的 打印 。 
如 果 打 印 机 处 于 很 差 的 状态 ， 可 能 也 不 会 有 高 质量 的 打印 。 即 使 打印 机 处 于 良 
好 状态 ， 也 不 能 保证 高 质量 的 打印 (因为 打印 机 就 是 这 样 的 )。 

加 ”printResultSummary 是 一 个 确定 的 变量 : 它 完 全 由 其 父 变量 决定 ， 没 有 任何 不 
确定 性 。 您 可 以 使 用 Apply 代替 Chain 表示 确定 的 变量 。 

详细 的 打印 机 模型 

本 节 将 较 快 地 介绍 详细 的 打印 机 模型 ， 因 为 许多 原理 都 是 相同 的 。 网 络 结构 如 图 

5-10 所 示 。 打印 机 状态 受到 3 个 因素 的 影响 : Paper Flow〔 纸 张 流 动 )、Toner Level ( 墨 

粉 水 平 ) 和 Printer Power Button On( 打 印 机 电源 按钮 开启 )。 该 模型 增加 了 一 类 前 所 

未 见 的 新 变量 一 一 指标 或 者 计量 值 。Paper Jam Indicator On〔( 卡 纸 指示 灯亮 ) 是 Paper 

Flow 的 计量 值 , Toner Low Indicator On ( 墨 粉 不 足 指示 灯亮 ) 是 Toner Level 的 计量 值 。 

正如 5.1.1 小 节 中 所 介绍 的 , 真 值 与 其 计量 值 之 间 的 关系 是 一 种 因果 关系 , 所 以 模型 中 

有 从 Paper Flow 到 Paper Jam Indicator On 和 从 Toner Level 到 Toner Low Indicator 

On 的 边 。 

下 面 是 定义 CPD 的 代码 ， 基 本 上 都 很 简单 。 







































































































































































































































































































































































































Printer Power Button On 


Paper Jam Indicator On 


图 5-10 详细 打印 机 模型 的 网 络 结构 
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程序 清单 5-2 Figaro 中 的 详细 打印 机 模型 


val PrinterPowerButtonon = Flip(0.95) 
val tonerLevel = Select(0.7 -> 'high, 0.2 -> 'low, 0.1 -> "out) 
val tonerLowIndicatorOn = 


























If (printerPowerButtonon, If 中 骨 套 了 一 个 CPD。 如 果 打 印 机 回忆 一 下 ， 单 引 
CPD (tonerLevel, 电源 按钮 开启 ， 墨 粉 不 足 指 示 灯 取 号 ' 表 示 Scala 符 
"high -> Flip(0.2)， | 决 于 墨 粉 水 平 。 如 果 电源 按钮 关闭 ， 号 类 型 
a 
Constant (false)) 关闭 ， 因 为 没有 电源 
val paperFlow = Select (0.6 -> 'smooth, 0.2 -> "uneven，0.2 -> 'jammed) 
val paperJamIndicatorOn = 
If (printerPowerButtonon, 
CPD (paperFlow, 
"smooth -> Flip(0.1), 
"uneven -> Flip(0.3), 
'jammed -> Flip(0.99)), 
Constant (false)) 
val PrinterState = 
Apply (printerPowerButtonOon, tonerLevel, paperFlow, 
(power: Boolean, toner: Symbol, paper: Symbol) => { 
if (power) { 打印 机 状态 是 组 
if (toner == 'high && paper == 'smooth) 'good 成 因素 的 确定 性 


else if (toner == 'out || paper == ' jammed) 'out 摘要 
else "Poor 
$F "else "out 
}) 


总 结 这 个 例子 ， 完 整 的 贝 叶 斯 网 络 结构 如 图 5-11 所 示 。 您 也 可 以 在 本 书 代码 中 的 
chap05/PrinterProblem.scala 下 看 到 完整 的 程序 。 


























5.3.2 ”用 计算 机 系统 诊断 模型 进行 推理 


本 节 说 明 如 何 用 刚刚 构建 的 计算 机 系统 诊断 模型 进行 推理 。Figaro 的 推理 机 制 很 简 
单 ， 但 是 从 中 得 到 的 推理 模式 很 有 趣 ， 说 明了 5.2.3 小 节 中 介绍 的 概念 。 本 节 的 所 有 推 
理 模式 划分 为 本 章 代 码 中 的 单独 步骤 ， 可 以 为 不 希望 执行 的 步骤 加 上 注释 ， 凸显 介绍 的 






























































mr 








每 个 步骤 。 
查询 先 验 概率 





首先 ， 我 们 查询 没有 任何 证 据 时 打印 机 电源 按钮 开局 的 概率 ， 这 是 一 个 先 验 概 率 。 
可 以 使 用 如 下 代码 : 


val answerWithNoEvidence = 
VariableElimination.probability (printerPowerButtonOon, true) 计算 P(Printer Power 
printlin("Prior probability the printer power button is on = "+ Button On = true) 
answerWithNoEvidence) 
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Printer Power Button On 


Paper Flow 










Paper Jam Indicator On TonerLow Indicator On 







User Command Correct Network State Software State 


td 


Number of Printed Pages 











Good Print Quality 





Print Result Summary 


图 5-11 计算 机 诊断 示例 的 完整 网 络 
这 段 代 码 打印 如 下 结 


Prior probability the printer power button is on = 0.95 
回顾 模型 ， 就 将 发 现 printerPowerButtonOn 用 如 下 代码 行 定 义 : 
val PrinterPowerButtonon = Flip(0.95) 


可 以 看 到 ， 如 果 和 忽略 除了 这 个 定义 之 外 的 整个 模型 ， 您 所 得 到 的 就 是 查询 的 答案 。 
这 是 如 下 通用 规则 的 一 个 例子 : 网 络 中 某 个 变量 的 下 游 只 在 有 证 据 的 时 候 才 与 该 变量 相 
关 。 特 别 是 ， 对 于 没有 任何 证 据 的 先 验 概率 ， 您 不 关心 网 络 的 下 游 部 分 。 

在 有 证 据 的 情况 下 查询 

如 果 您 引入 了 证 据 ， 会 发 生 什么 情况 ?我 们 在 已 知 打 印 结 果 不 佳 ( 暗 示 着 有 一 些 结 
果 ， 但 是 不 是 用 户 所 要 的 结果 ) 的 情况 下 ， 查 询 打印 机 电源 按钮 开启 的 概率 。 可 以 使 用 
如 下 代码 : 


printResultSummary.observe('poor) 













































































val answerIfPrintResultPoor = 
VariableElimination.probability (printerPowerButtonOon, true) 计算 P(Printer Power 
printlin("Probability the printer power button is on given a Poor " Button On = true | 
+ "result = " + answerIfPrintResultPoor) Print Result = poor) 
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个 示例 








这 段 代 码 打 印 如 下 结 


Probability the printer power button is on given a poor result = 1.0 


这 可 能 有 些 令 人 惊讶 ! 概率 高 于 您 没有 任何 关于 打印 的 证 据 时 。 考 虑 一 下 模型 ， 就 
能 知道 其 中 的 原因 。 糟 糕 的 打印 结果 只 有 在 至 少 打印 出 某 些 页 面 的 情况 下 才能 发 生 ， 这 
不 是 电源 关闭 的 结果 。 因 此 ， 电 源 开 启 的 概率 为 1。 

现在 用 “什么 都 没有 打印 ”的 证 据 进行 查询 : 


printResultSummary.observe('none) 


val answerIfPrintResultNone = 计算 P(Printer Power 
VariableElimination.probability (printerPowerButtonOon, true) Button On = true | 


Printer Result = none) 






































































































































println("Probability the printer power button is on given empty " 
+ "result = " + answerIlfPrintResultNone) 


结果 如 下 : 


Probability the printer power button is on given empty result = 
0.8573402523786461 


这 符合 您 的 预期 电源 按钮 关闭 很 好 地 解释 了 没有 打印 结果 的 情况 , 所 以 根据 证 据 ， 

它 的 概率 增 大 了 。 

独立 与 阻塞 

5.2.3 小 节 介绍 了 阻塞 路 径 的 概念 以 及 这 个 概念 与 条 件 独 立 性 的 关系 。 这 个 概念 可 以 
用 3 个 变量 说 明 : Print Result Summary、Printer Power Button On 和 Printer State。 在 图 
5-11 中 ， 可 以 看 到 从 Printer Power Button On 到 Print Result Summary 的 路 径 通 过 了 
Printer State。 因 为 这 不 是 会 聚 箭头 模式 ， 该 路 径 在 观测 到 Printer State 时 被 阻塞 。 确实 ， 
现在 可 以 看 到 这 种 情况 : 


printResultSummary.unobserve() 











































































































printerState.observe ('out) 


val answerIfpPrinterStateOut = ge 和 
计算 P(Printer Power 


printlin("Probability the printer power button is on given " + | Button On = true | 
"out printer state = " + answerIfPrinterStateOut) Printer State = out) 


VariableElimination.probability (printerPowerButtonOon, true) 


printResultSummary.observe('none) 

val answerIlfpPrinterStateOutAndResultNone = 
VariableElimination.probability (printerPowerButtonOon, true) 计算 P(Printer Power 

printin ("Probability the printer power button is on given " + | Button On = true | Printer 





"out printer state and empty result = " 十 State = out, Print Result 
answerIfPrinterStateOutAndResultNone) Summary = none) 

A 芝 

上 述 代码 打印 如 下 结 


Probability the printer power button is on given out printer state = 
Qs685172413:7931032 

Probability the printer power button is on given out printer state and empty 
result = 0.6551724137931033 
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可 以 看 到 ， 在 已 知 打印 机 状态 为 停机 之 后 ， 得 知 打印 结果 为 空 并 没有 改变 打印 机 电 
源 按钮 开启 的 概率 。 这 是 因为 ， 在 Printer State 给 定 的 情况 下 ，Print Result Summary 条 
件 独 立 于 Printer Power Button On 。 

在 相同 原因 的 不 同 结果 之 间 推 理 
目前 为 止 看 到 的 所 有 推理 路 径 是 沿 着 网 络 向 上 的 。 在 推理 时 您 也 可 以 组 合 两 个 方 
向 。 当 您 考虑 计量 值 所 提供 的 情况 ， 以 及 依照 这 些 情 况 得 出 的 结论 ， 就 很 容易 理解 这 一 
点 。 在 我 们 的 例子 中 ，Toner Low Indicator On 是 Toner Level 的 子 变量 ，Toner Level 是 
Printer State 的 父 变量 。 如 果 墨 粉 水 平 很 低 ， 打 印 机 状态 就 不 太 可 能 好 。 同 时 ， 墨 粉 不 足 
指示 灯亮 是 墨 粉 水 平 低 的 信号 。 如 果 观 察 到 墨 粉 不 足 指 示 灯 亮 ， 打 印 机 状态 良好 的 概率 
降低 是 合理 的 。 您 可 以 在 如 下 代码 中 看 到 这 种 情况 : 


















































































































































































































































printResultSummary.unobserve() 
PrinterState.unobserve () 
val printerStateGoodPrior = 


pe , 计算 P(Printer State = 
VariableElimination.probability (printerState, 'good) 


ood 
printiln("Prior probability the printer state is good = " 8 ) 
+ printerStateGoodPrior) 
tonerLowIndicatorOn.observe (true) 
日 和 下 ] 一 和 9 
val printerStateGoodGivenTonerLowIndicatorOn 计算 P(Printer State 
VariableElimination.probability (printerState, 'good) = good | TOner Tow 
printiln("Probability printer state is good given low toner " Indicator On = true) 
+ "indicator = " + printerStateGoodGivenTonerLowIndicatorOn) 





这 段 代 码 打印 如 下 结果 : 


Prior probability the printer state is good = 0.39899999999999997 
Probability the printer state is good given low toner indicator = 
0.23398328690807796 


可 以 看 到 ， 在 您 观察 到 墨 粉 不 足 指示 灯 时 ， 打 印 机 状态 良好 的 概率 下 降 ， 这 正如 
预期 。 

在 同一 结果 的 不 同 原因 之 间 推 理 : 诱导 依赖 性 

正如 5.2.3 小 节 中 所 讨论 的 ， 在 同一 结果 的 不 同 原因 之 间 推 理 与 其 他 类 型 的 推理 不 
同 , 因为 它 涉及 会 聚 箭头 , 这 会 导致 诱导 依赖 性 。 我们 以 Software State 和 “Network State 
为 例 ， 它 们 都 是 Prints Quickly 的 父 变量 。 首 先 ， 您 计算 软件 状态 正确 的 概率 : 


tonerLowIndicatorOn.unobserve () 








































































































val softwareStateCorrectPrior = 
VariableElimination.probability (softwareState, 'correct) 计算 P(Software State 
println("Prior probability the software state is correct = " 十 = correct) 
softwareStateCorrectPrior) 
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打印 结果 如 下 : 


Prior probability the software state is correct = 0.8 








接 下 来 ， 您 将 观察 到 网 络 正常 连接 ， 并 再 次 查询 软件 状态 : 























networkState.observe ('up) 


val softwareStateCorrectGivenNetworkUp = 


计算 P(Software State 
j jrj j j ] j 1 
VariableElimination.probability(softwareState, 'correct) = correct | Network 
println("Probability software state is correct given network up = "+ State = up) 


softwareStateCorrectGivenNetworkUp) 





打印 结果 如 下 : 


Probability software state is correct given network up = 0.8 











尽管 从 Network State 通过 Prints Quickly 到 Software State 有 一 条 清晰 的 路 径 ， 但 是 
概率 没有 变化 ! 这 说 明 ， 一 般 来 说 同一 个 结果 的 两 个 原因 是 相互 独立 的 。 从 直觉 上 这 很 
正确 : 网 络 正常 运行 对 软件 状态 是 否 正确 之 无 影响 。 

现在 ， 如 果 您 知道 打印 机 速度 不 快 ， 情 况 就 不 一 样 了 。 如 果 打 印 机 速度 较 慢 ， 我 们 
的 模型 提供 了 两 种 可 能 的 解释 : 网 络 问 题 或 者 软件 问题 。 如 果 观 察 到 网 络 正常 连接 ， 则 
必然 是 软件 问题 。 您 可 以 用 如 下 代码 看 到 这 种 情况 : 





























































































































networkState.unobserve () 


计算 P(Software printsQuickly.observe (false) 


State = correct | 
Prints Quickly = 


计算 P(Software 
State = correct | 


val softwareStateCorrectGivenprintsSlowly = 
VariableElimination.probability (softwareState, 'correct) 
printin("Probability software state is correct given prints " 


+ "slowly = " + softwareStateCorrectGivenpPrintsSlowly) 


networkState.observe('up) 


val softwareStateCorrectGivenpPrintsSlowlyAndNetworkUp = 


Prints Quickly = VariableElimination.probability(softwareState, 'correct) 


Network |Pprintln("Probability software state is correct given prints " 


State = up) + "slowly and network up = " 


+ softwareStateCorrectGivenPrintsSlowlyAndNetworkUp) 























运行 上 述 代 码 打印 如 下 结果 : 


Probability software state is correct given prints slowly = 
0.6197991391678623 
Probability software state is correct given prints slowly and network up = 


0.39024390243902435 
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得 知 网 络 正常 连接 ， 将 显著 地 降低 软件 状态 正确 的 概率 。 所 以 ，Software State 和 
Network State 是 独立 的 , 但 是 在 Prints Quickly 给 定 的 情况 下 不 是 条 件 独立 的 , 这 是 诱导 
依赖 性 的 一 个 例子 。 

总 结 如 下 。 

国 。 从 结果 和 X 癌 间 接 原因 了 推理 时 ，X 不 独立 于 了， 但 是 如 果 Z 阻 塞 从 和 到 了 的 路 

径 ， 那 么 在 Z 给 定 的 情况 下 ，X 和 了 了 条件 独立 。 

国 从 原因 向 间接 结果 推理 或 者 在 同一 原因 的 两 个 结果 之 间 推 理 时 ， 上 一 点 也 

成 立 。 

国 。 对 于 同一 结果 2Z 的 两 个 原因 和 和 了， 情况 相反 。X 与 了 独立 ， 但 是 在 Z 给 定 的 
情况 下 ， 由 于 诱导 依赖 性 ， 两 者 不 是 条 件 独 立 的 。 

计算 机 系统 诊断 示例 到 此 就 圆满 完成 了 。 您 已 经 看 到 了 包含 有 趣 推理 模式 、 内 容 充 
实 的 网 络 。 下 一 节 ， 您 将 超越 传统 的 贝 叶 斯 网 络 。 


























































































































































































































































































































5.4 ”使 用 概率 编程 扩展 贝 叶 斯 网 络 : 预测 产品 的 成 功 


本 节 说 明 如 何 扩展 基本 贝 叶 斯 网 络 模型 ， 以 预测 市 场 活动 和 产品 布局 的 成 功 。 这 一 
例子 的 目的 有 两 方面 : 首先 ， 说 明 使 用 编程 语言 扩展 贝 叶 斯 网 络 的 能 力 ， 其 次 ， 说 明 使 
用 贝 叶 斯 网 络 不 仅 能 够 推理 观察 到 的 事件 起 因 ， 还 能 够 预测 未 来 的 事件 。 和 计算 机 系统 
诊断 示例 一 样 ， 我 将 首先 展示 模型 的 设计 方法 ， 并 用 Figaro 表达 ， 然 后 说 明 如 何 用 这 个 
模型 推理 。 





















































































































































5.4.1 设计 产品 成 功 预 测 模型 


想象 您 有 一 个 新 产品 ， 希 望 尽 可 能 使 其 取得 成 功 。 实 现 这 一 目标 有 多 种 途径。 您 
以 投资 于 产品 的 包装 和 其 他 吸引 客户 的 方面 ， 可 以 尝试 以 客户 更 容易 接受 的 方式 定价 。 
或 者 ， 可 以 提供 免费 版 本 进行 促销 ， 希 望 人 们 与 其 朋友 分 享 。 在 选择 策略 之 前 ， 您 希望 
知道 每 个 因素 的 相对 重要 性 。 

本 节 描 述 用 于 这 个 应 用 的 模型 框架 。 我 称 之 为 框架 是 因为 它 只 是 真正 构建 的 模型 的 
一 个 骨架 , 但 是 足以 说 明 我 的 论点 。 本 节 提 供 的 模型 是 一 个 只 有 4 个 节点 的 贝 叶 斯 网 络 ， 
但 是 节点 和 CPD 的 类 型 丰富 且 有 趣 。 

该 模型 的 4 个 变量 如 图 5-12 所 示 。 
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类 型 : 网 络 类 型 : 布尔 
目标 客户 的 社会 化 网 络 目标 客户 喜欢 产品 吗 ? 
y y 






类 型 :整数 
































































































































































































































类 型 : 整数 、， 有 多 少 目标 客户 的 朋友 
在 目 和 客户 入 人 之 后 站 一、 在 目标 客 户 推介 之 后 可 
买 该 产品 ? a 

图 5-12 产品 成 功 预测 网 络 

转 ”Target Social Network〔( 目 标 社会 化 网 络 ) 变量 的 类 型 是 一 个 社会 化 网 络 。 这 是 
编程 语言 让 您 超越 常规 贝 叶 斯 网 络 的 一 种 方式 ， 在 贝 叶 斯 网 络 中 变量 只 能 是 布 
尔 型 、 枚 举 型 、 整 数 型 或 者 实数 型 。 这 个 变量 的 CPD 随机 地 根据 目标 的 流行 程 
度 生 成 网 络 。 流 行程 度 本 身 是 一 个 控制 变量 ， 因 此 模型 中 将 其 作为 已 知 的 常量 
而 非 变 量 。 但 是 您 可 以 引入 有 关 流 行程 度 的 不 确定 性 ， 使 其 成 为 变量 。 

图 ”Target Likes 是 一 个 布尔 变量 ， 表 示 目 标 是 否 喜欢 产品 ， 这 是 产品 质量 的 一 个 函 
数 。 同 样 ， 产 品质 量 是 一 个 已 知 的 常量 ， 但 是 您 也 可 以 使 之 成 为 取决 于 投资 的 
变量 。 

加 ”Number Friends Like 是 一 个 整数 变量 ， 但 是 其 CPD 遍历 Target Social Network 
以 决定 看 到 产品 的 朋友 和 喜欢 该 产品 的 朋友 数量 。 这 比 贝 叶 斯 网 络 中 的 传统 
CPD 更 加 丰富 。 

国 ”Number Buy 是 一 个 整数 变量 , 它 的 模型 通过 考虑 每 个 喜欢 产品 的 人 购买 产品 的 
概率 定义 , 这 一 概率 取决 于 可 承受 性 一 一 这 个 控制 变量 的 值 是 已 知 常数 。 因 此 ， 
购买 产品 的 人 数 呈 二 项 分 布 。 

下 面 是 这 个 模型 的 Figaro 代码 。 我 将 概要 介绍 代码 的 工作 方式 ， 然 后 介绍 模型 的 

细节 。 
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程序 清单 5-3 Figaro 中 的 产品 成 功 预测 模型 


ee ee 定义 一 个 Network 类 浅 类 ， 该 类 包含 个 
val numNodes = Poisson(popularity . A 
Poisson 元 素 (参见 正文 ) 定义 的 属性 





















































创建 一 个 | ， 
2 class Model (targetPopularity: Double, productQuality: Double, 
以 已 知 的 affordability: Double) { 
控制 参数 
作为 参数 def generateLikes (numFriends: Int, 
productQuality: Double): Element[Int] = { 
def helper (friendsVisited: Int, totalLikes: Int, 
unprocessedLikes: Int): Element[Int] = { 
if (unprocessedLikes == 0) Constant (totalLikes) 
else: 4 
val unvisitedFraction = 
1.0 - (friendsVisited.toDouble - 1) / (numFriends - 1) 定义 生成 喜欢 
val newlyVisited = Binomial (2, unvisitedFraction) 产品 的 人 数 的 
val newlyLikes = 递归 过 程 ( 参 
Binomial (newlyVisited, Constant (productQuality)) 见 正 文 ) 
Chain (newlyVisited, newlyLikes, 
(visited: Int, likes: Int) => 
helper (friendsVisited + unvisited, 
totalLikes + likes, 
根据 目标 的 unprocessedLikes + likes - 1)) 
流行 程度 ， 加 
将 目标 社会 helper(1, 1, 1) 
化 网 络 定义 | ， 
为 一 个 随机 
网 络 Li Val targetSocialNetwork = new Network (targetPopularity) 
和 val targetLikes = Flip(productQuality) 
目标 是 否 喜 val numberFriendsLike = 如 果 目 标 喜 欢 产 品 ， 用 
欢 产品 是 基 Chain(targetLikes, targetSocialNetwork.numNodes, Bonorate Fes: 计算 朋友 数 
于 产品 质量 (1: Boolean, n: Int) => 里 o 人 目标 不 喜欢 产品 ， 
的 布尔 元 素 if (1) generateLikes(n, productQuality) 就 不 会 告诉 朋友 有 关 产 品 
else Constant (0)) 的 事情 ， 所 以 数量 为 0 
val numberBuy = 
Binomial (numberFriendsLike, Constant (affordability)) 购买 产品 的 朋友 数 
} 基 二 项 分 布 (参见 
正文 ) 











代码 中 有 3 个 细节 需要 另外 解释 : Network 类 使 用 的 Poisson 元 素 、generateLikes 
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过 程 和 和 numberBuy 定义 。 我 们 首先 介绍 Poisson 元 素 和 numberBuy 逻辑 ， 然 后 介绍 模型 

中 最 有 趣 的 部 分 generateLikes 过 程 。 

加 Poisson 元 素 是 一 个 整数 元 素 ， 使 用 所 谓 的 泊 松 分 布 。 泊 松 分 布 通常 用 于 建 
立 某 一 事件 在 一 段 时 间 内 出 现 次 数 的 模型 ， 比 如 一 个 月 内 网 络 故障 的 次 数 或 者 
一 场 足球 赛 中 的 角球 次 数 。 利 用 少许 创意 ， 在 任何 您 想 要 知道 某 个 范围 内 的 事 
物 数量 的 情况 下 ， 都 可 以 用 泊 松 分 布 作为 模型 。 这 里 ， 您 用 这 种 分 布 建 立 某 人 

社会 化 网 络 中 的 人 数 ， 这 不 同 于 通常 的 用 法 ， 但 是 仍 是 一 个 合理 的 选择 。 
Poisson 元 素 有 一 个 参数 一 一 在 一 段 时 间 内 预期 出 现 的 平均 次 数 , 但 是 允许 该 数 
值 高 于 或 者 低 于 平均 数 。 在 这 个 模型 中 ， 参 数 是 目标 的 流行 程度 ; 流行 程度 应 
该 是 您 预计 在 目标 客户 社会 化 网 络 中 的 平均 人 数 。 

加 ”代码 中 有 确定 购买 产品 人 数 的 逻辑 。 每 个 喜欢 产品 的 人 购买 产品 的 概率 等 于 可 
承受 性 参数 的 值 。 所 以 购买 产品 的 人 数 由 一 个 三 项 分 布 给 出 ， 其 中 的 试验 次 数 
是 喜欢 产品 的 人 数 ， 购 买 概 率 取 决 于 产品 的 可 承受 性 。 因 为 喜欢 产品 的 人 数 本 

身 是 一 个 元 素 ， 必 须 使 用 复合 二 项 分 布 ， 以 该 元 素 作为 参数 。 复 合 二 项 分 布 元 
素 要 求 试 验 成 功 概率 也 是 一 个 元 素 ， 这 就 是 将 可 承受 性 封装 在 一 个 常量 
(Constant) 元 素 中 的 原因 。 常 量 元 素 取 得 一 个 常规 Scala 值 ， 生 成 始终 取 该 值 
的 Figaro 元 素 。 

加 ”generateLikes 函数 的 目的 是 向 社会 化 网 络 包含 给 定 人 数 的 目标 客户 提供 产品 2 
后 ， 喜 欢 产 品 的 人 数 。 这 个 函数 假定 目标 本 身 喜 欢 该 产品 ， 和 否则 ， 将 不 会 调用 
该 函数 。 它 描述 一 个 人 们 向 朋友 推荐 自己 喜欢 的 产品 的 随机 过 程 。generateLikes 
函数 有 两 个 参数 : (1) 目标 客户 社会 化 网 络 中 的 人 数 ， 这 是 一 个 整数 ，(2) 产 
品质 量 ， 是 0~1 的 双 精 度数 。 
generateLikes 水 数 的 逻辑 并 不 关键 ， 因 为 重点 是 可 以 使 用 有 趣 的 递归 函数 作为 
CPD。 但 是 我 将 解释 这 一 逻辑 ， 使 您 能 够 看 到 一 个 示例 。generateLikes 的 大 部 
分 工作 由 一 个 助手 函数 完成 。 这 个 函数 跟踪 3 个 值 。 

一 一 friendsVisited 是 目标 社会 化 网 络 中 已 经 得 到 产品 信息 的 人 数 ， 最 初 为 1， 

忆 为 开始 只 有 目标 客户 已 经 了 解 产 品 信息 。 
一 一 totalLikes 代表 目前 为 止 受 访 者 中 喜欢 产品 的 人 数 。 最 初 也 为 1， 
目标 客户 喜欢 产品 ， 这 是 调用 generateLikes 的 前 提 。 
一 一 unprocessedLikes 表示 在 您 尚未 模拟 向 其 朋友 推销 的 人 中 喜欢 该 产品 
的 人 数 。 

我 将 通过 如 下 代码 解释 助手 函数 的 逻辑 。 
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为 假定 
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清单 5-4 ”遍历 社会 化 网 络 的 助手 函数 


和 马尔 科 夫 网 络 建立 依赖 性 模型 

















助手 函数 以 常规 Scala 值 作为 参数 ， 
































返回 一 个 元 素 ， 可 以 用 在 链 内 部 
def helper (friendsVisited: Int, totalLikes: Int, - 
unprocessedLikes: Int) : Element[Int] = { 
终止 条 件 : 如 
果 没 有 其 他 需 计算 社会 化 网 络 中 
要 处 理 的 人 ， 一 If (unprocessedLikes == 0) Constant (totalLikes) 任意 一 个 人 尚未 受 
喜欢 该 产品 的 访 的 概率 ( 排除 已 
人 数 就 等 于 日 ， 经 处 理 的 人 ) 
前 为 止 找到 的 | ss 1 
人 数 val unvisitedFraction = 
1.0 - (friendsVisited.toDouble - 1) / (numFriends - 1) - 
一 val newlyVisited = Binomial (2, unvisitedFraction) 
已 处 理 的 人 向 两 位 朋 A lt 
A i 口 A val newlyLikes = 概率 由 productQuality 
友 推 销 产品 ， | Binomial (newlyVisited，Constant (Productouality) )| | 确定 ,这 个 数值 封装 在 
友 尚 未 受 访 的 概率 由 


unvisitedFraction 给 出 





用 Chain 编写 递归 











Chain (newlyVisited, newlyLikes, 
Trits 


(visited: 


likes: 





Int) => 


helper (friendsVisited + visited, 


totalLikes + likes, 


unprocessedLikes + likes - 1)) 














过 程 是 典型 的 做 法 
一 [> 
} 
} 
刚刚 表示 喜欢 产品 的 每 个 人 都 是 
未 处 理 人 员 ， 但 是 要 减 去 1 ( 表示 
刚 处 理 的 人 ) 
这 个 例子 使 用 


要 点 是 


想象 一 个 生成 可 能 
的 一 个 相对 简单 的 过 程 ， 











ns 








新 的 喜欢 产品 人 数 等 于 
日 数量 加 上 刚刚 表示 嘉 
欢 产品 的 人 数 





























世界 的 过 程 。 
但 是 








在 这 个 例子 中 ， 您 
很 容易 编写 更 丰富 的 过 程 。 





Constant 元 素 中 ， 以 满 
足 复 合 二 项 分 布 元 素 





的 接口 要 求 
新 受 访 人 数 等 于 旧 
数量 加 上 刚刚 被 访 
问 的 人 数 


了 较 多 的 编程 和 Scala 技巧 , 但 是 主要 的 建 模 技 术 与 贝 叶 斯 网 络 类 似 ， 














到 产品 通过 社会 化 网 络 传播 
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5.4.2 ”用 产品 成 功 预 测 模型 进行 推理 




























































































对 为 您 已经 设计 了 用 于 预测 成 功 的 模型 ， 典 型 的 
产品 的 人 数 。 
趣 ， 而 是 想 要 知道 预期 的 平均 值 。 这 称 为 该 值 的 期 望 。 
在 概率 论 中 ， 
数 的 平均 值 。 图 5-13 展示 了 一 个 例子 ， 从 任何 类 型 的 














j 法 是 设置 控制 变量 值 ， 预 测 购买 
因为 人 数 是 一 个 范围 很 广 的 整数 变量 ， 因 此 您 对 预测 特定 值 的 概率 没有 兴 







































































子 中 , 这 些 值 
























































期 望 是 一 个 通用 概念 。 期 望 取得 在 变量 上 定义 的 一 个 函数 ， 返 回 该 函 
值 上 的 概率 分 布 开始 ;在 这 个 例 
是 整数 。 然 后 ， 对 每 个 值 应 用 一 个 函数 产生 
函数 将 每 个 整数 转换 为 其 

















一 个 双 精 度 值 。 在 这 个 例子 














双 精 度 表现 形式 。 接 着 ， 取得 双 精度 值 的 加 权 平 均 数 ， 每 个 值 
的 权重 由 其 概率 决定 。 这 意味 着 ， 将 每 个 双 精 度 值 乘 以 





其 概率 并 加 总 。 


一 从 任意 类 型 值 的 分 布 开始 


01 —0 02 = 1 04 一 2 03 一 34 一 


(Inb => itoDouble 


根据 某 个 函数 将 每 个 


” 值 转换 为 双 精度 类 型 
0.1 — 0.0 02 — 1.0 04 — 2.0 03 — 3.0 
ee 加 取得 每 个 双 精 度 值 
SP 与 其 概率 的 乘积 
we。 
0.1x00=00 0.2x1.0=0.2 0.4x2.0=0.8 0.3x3.0=0.9 














一 AS 


0.0+0.2+0.8+0.9=1.9 


一 一 加 总 得 出 结果 








加 权 平 均值 ， 权 重 为 其 概率 





图 5-13 ”计算 整数 元 素 上 的 一 个 分 布 的 期 望 值 。 元 素 的 值 首先 转换 为 双 精 度 值 ， 然 后 取 这 些 双 精度 值 的 














在 预测 产品 成 功 的 例子 中 ， 您 想 要 计算 购买 产品 人 数 〈 一 个 整数 值 ) 的 期 望 值 。 可 
以 在 Figaro 中 使 用 如 下 代码 行 


algorithm.expectation (modqe1.numberBuy， (i: Int) => i.toDouble) 


在 此 ，algorithm 是 您 所 使 用 的 推理 算法 的 一 个 句柄 。 








这 种 算法 特别 适 
























































本 应 用 使 用 重要 性 抽样 算法 ， 























莫 合 于 预测 复杂 生成 过 程 的 结果 。 因 为 您 需要 该 算法 的 一 个 句柄 ， 运 行 扒 





























计算 购买 产品 

















理 所 需 的 代码 比 以 前 稍微 复杂 一 些 ， 下 面 的 代码 片段 对 此 做 出 了 解释 。 取 得 控制 常量 3 
期 望 值 的 整个 过 程 由 predict 函数 实现 : 
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def predict (targetPopularity: Double, productQuality: Double, 
affordability: Double): Double = { 








创建 重要 性 抽样 
算法 的 一 个 实例 。 





























目 . 样 术 消 
a eT 1000 是 样本 数 ， 
| new Model (targetPopularit productQualit affordability) Inodelnumberbuy 
WwW U ity, u uality, i1lity ee 
给 定 表示 我 们 想 要 预 
使 用 给 定 的 l < 
和 | 潍 :如 , 测 的 目标 
控制 常量 ， val algorithm = Importance (1000, model.numberBuy) 中 人 
创建 产品 预 














测 模型 的 新 algorithm. start () 
实例 运行 算法 


val result = 


algorithm.expectation(model.numberBuy, (i: Int) => i.toDouble) 








algorithm.kill () 清理 并 释放 算法 占 
用 的 资源 
result 





















































如 果 您 试图 理解 购买 产品 人 数 上 各 种 控制 的 效果 ， 应 该 用 不 同 的 输入 多 次 运行 
predict 函数 ， 产 生 的 结果 可 能 如 下 ; 


Popularity Proquct quality Affordability Predicted number of buyers 



















































































00 0.5 0.5 2.0169999999999986 
00 0.5 0.9 3.7759999999999962 
00 0.9 0.5 29.21499999999997 
00 0.9 0.9 53.13799999999996 
0 0.5 0.5 0.7869999999999979 
0 0.5 0.9 1.4769999999999976 
0 0.9 0.5 3.3419999999999885 
0 0.9 0.9 6.066999999999985 
从 上 表 中 可 以 得 出 一 些 结论 。 购 买 者 人 数 大 致 与 产品 的 可 承受 性 成 正比 。 但 是 对 产 
品质 量 有 不 成 比例 的 依赖 性 : 人 性 的 组 合 中 ， 当 产品 质量 为 0.9 















































时 ， 购 买 人 数 至 少 比 质量 为 0.5 时 高 出 数 倍 。 当 流行 程度 为 100 时 ， 倍 数 高 达 15。 流 行 
程度 与 产品 质量 之 间 似 乎 有 某 种 关系 ， 当 质量 很 高 时 ， 流 行程 度 限 制 了 接触 到 产品 的 人 
数 。 当 质量 很 低 时 ， 流 行程 度 的 影响 没有 那么 大 。 

在 这 个 例子 中 ,您 已 经 看 到 Figaro 被 用 作 一 种 模拟 语言 。 预 测 未 来 发 生 什 么 通常 是 
模拟 的 工作 ， 这 也 就 是 我 们 所 要 描述 的 用 例 。 您 可 以 简单 地 使 用 该 模型 进行 反 向 推理 。 
例如 ， 在 您 将 产品 交 给 一 些 人 并 观察 他 们 影响 多 少 人 购买 产品 之 后 ， 可 以 估计 产品 的 质 
量 。 这 是 该 模型 有 价值 的 备 选 使 用 方案 之 一 。 










































































































































































中 | 








5.5 ”使 用 马尔 科 夫 网 络 


5.5 ”使 用 马尔 科 夫 网 络 


5.5.1 





前 面 几 节 介绍 的 是 贝 叶 斯 网 络 ， 这 利 
无 向 依赖 性 。 对 于 无 向 依赖 性 ， 
的 








图像 恢 复 应 用 
像 恢复 模型 并 用 
































马尔 科 夫 网 络 定义 


马尔 科 夫 网 络 是 概率 模型 的 一 种 表现 有 














解释 马尔 科 夫 网 络 的 原 到 
其 进行 推理 。 
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网 络 编码 有 向 依赖 性 。 现 在 我 们 将 注意 力 转向 
与 贝 叶 斯 网 络 对 应 的 是 马尔 科 夫 网 络 。 我 将 用 
E。 然后， 我 将 说 明 如 何在 Figaro 中 表示 这 个 图 




















个 典型 








E 式 ， 包 含 三 个 部 分 。 





四 ”一 组 变量 一 一 每 个 变量 有 一 个 定义 域 ， 即 该 变量 的 可 能 值 集合 。 
时 ”一 个 无 向 图 ， 变 量 是 其 中 的 节点 一 一 节点 之 间 的 边 是 无 方向 的 ， 也 就 是 说 ， 没 








有 从 一 个 变量 到 另 


个 变量 的 箭头 。 这 种 图 允许 环 的 存在 。 


图 ”一 组 势 ( potential ) 一 一 这 些 势 提供 了 模型 的 数值 参数 。 我 很 快 将 详细 解释 这 


些 势 。 




















5-14 展示 了 用 于 图 像 恢复 应 有 
量 。 图 中 展示 了 一 个 4x4 的 像素 阵列 ， 但 是 很 容易 推广 到 任何 大 小 的 图 像 。 原 则 上 ， 像 
素 的 值 可 以 是 任意 颜色 ， 但 是 为 了 例子 的 简单 ， 我 们 月 
深 色 。 水 平 或 者 垂直 相 邻 的 介 












































能 性 更 大 。 










“在 其 他 条 件 都 相同 的 情况 下 ”这 个 修饰 语 对 于 理 





Cne2 7 
“i 


图 


























5-14 ”像素 图 








有 的 马尔 科 夫 网 络 。 图 














像 的 马尔 科 夫 网 络 























= Pixel 34 
和 = Pixel 44 


解 模型 的 含义 很 重要 。 





像 中 的 每 个 像素 对 应 一 个 变 








一 个 布尔 值 表示 像素 是 鲜艳 还 是 
F 何 一 对 像素 之 间 都 有 一 条 边 。 这 些 边 直观 地 编码 了 这 样 的 
事实 : 在 其 他 条 件 都 相同 的 情况 下 ， 两 个 相 邻 的 像素 取 相 同 值 的 可 能 性 比 取 不 同 值 的 可 
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两 个 像素 之 间 的 边 , 考虑 每 个 像素 的 单独 概率 分 布 ， 导 











b 么 它们 实际 上 很 可 能 不 同 。 例如 ， 


根据 您 知道 的 所 有 其 他 知识 ， 您 可 能 相信 像素 11 为 鲜艳 颜色 的 概率 是 90%， 像素 12 为 











11 和 像素 12 之 间 的 边 使 得 









































鲜艳 颜色 的 概率 是 10%。 在 这 种 情况 下 ， 像 素 11 和 像素 12 不 同 的 概率 很 大 。 但 是 像素 








它们 “ 比 其 他 情况 下 更 可 能 相同 ” 增加 了 它们 很 可 能 相同 的 








知识 。 这 一 知识 抵消 了 它们 可 能 不 同 的 其 他 知识 ， 但 是 











像素 11 和 像素 12 之 间 的 边 表 达 的 特定 知识 由 这 条 边 的 


定义 。 
势 


马尔 科 夫 网 络 的 数值 参数 是 如 何 定 义 的 ? 在 贝 叶 斯 
在 马尔 科 夫 网 络 中 没有 那么 简单 。 变 量 没有 自己 的 数值 参数 ， 而 是 在 各 组 变量 上 定义 所 

































































可 能 不 会 完全 改变 总 体 的 结论 。 


势 表示 。 现 在 ， 我 们 来 看 看 势 的 














网 络 中 ， 每 个 变量 有 一 个 CPD。 























谓 的 势 。 存 在 对 称 依赖 性 时 ， 在 其 他 条 件 都 相同 的 情况 下 ， 相 互 依赖 的 变量 之 间 的 某 些 








组 合 状态 比 其 他 组 合 更 可 能 出 现 。 势 指定 了 每 个 这 种 组 合 状态 的 权重 。 在 其 他 条 件 相同 
































的 情况 下 ， 高 权重 的 组 合 状 态 比 低 权重 的 组 合 状态 更 可 
的 情况 下 ， 两 个 组 合 状态 的 相对 概率 等 于 权重 的 比率 。 



































从 数学 上 讲 ， 势 是 从 变量 值 到 实数 的 函数 ， 其 取 值 






































能 出 现 。 同 样 ， 在 其 他 条 件 相同 






































只 能 是 正 实数 或 者 0。 表 5-1 展 





























示 了 图 像 恢 复 应 用 中 单个 像素 J 

















表 5-1 单个 像素 上 的 一 元 势 





。 这 种 势 编码 了 一 个 事实 : 
“点 亮 ” 的 概率 为 0.4 


上 一 元 势 的 例子 ， 表 5-2 展示 了 两 个 像素 上 的 二 元 势 。 





在 其 他 条 件 都 相同 的 情况 下 ， 某 个 像素 








Pixel 31 势 值 
F 0.6 
下 0.4 





表 5-2 两 个 相 邻 像素 上 的 二 元 势 。 这 种 势 编码 了 一 个 事实 : 在 其 他 条 件 都 相同 的 情况 下 ， 两 个 
像素 取 相同 值 的 可 能 性 9 倍 于 取 不 同 值 的 可 能 性 














Pixel 31 Pixel 32 势 值 
F F 0.9 
F T 0.1 
工 下 0.1 
工 工 0.9 








势 函数 与 图 的 结构 如 何 相 互 作用 ? 有 两 条 规则 。 








国势 函数 只 能 提 及 图 
四 如果 两 个 变量 在 图 




















中 相连 的 变量 。 








在 我 们 的 图 像 恢复 示例 
对 相 邻 像素 《水 平 或 者 垂直 ) 都 有 表 5-2 1 


















































上 相连 ， 必 然 在 某 个 势 函 数 中 一 起 提 及 。 
， 每 个 变量 都 有 如 表 5-1 中 所 示 的 一 元 势 的 一 个 拷贝 ， 每 
的 二 元 势 的 一 个 拷贝 。 您 可 以 看 到 ， 势 的 赋 





值 遵循 上 述 两 条 规则 。 
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马尔 科 夫 网 络 如 何 定义 概率 分 布 








低 
/GAN 
概 率 y 


复杂 。 

















正如 贝 叶 斯 网 络 中 那样 ， 马 尔 科 夫 网 络 的 可 能 
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斯 网 络 习 





b 么 





已 经 看 到 马尔 科 夫 网 络 的 定义 。 它 如 何 定 义 概率 分 布 ? 如 何 为 每 个 可 能 世界 指定 
使 所 有 可 能 世界 的 概率 总 和 为 1? 答案 不 像 贝 叶 


简单 ， 但 是 也 不 是 太 

















F 界 




































































包含 所 有 变量 的 赋 信 

















， 确 保 每 个 

















































































































































































































变量 的 值 在 其 定义 域 中 。 这 样 的 可 能 世界 概率 多 大 呢 ? 我 们 用 一 个 例子 逐步 加 以 说 明 。 
为 了 简单 起 见 ， 我 们 考虑 一 个 2x 2 像素 阵列 的 如 下 赋值 : pixel 11 = true, pixel 12 = 
true, pixel 21 = true， pixel 22 = false。 您 将 观察 模型 中 的 所 有 势 和 这 个 可 能 世界 的 势 值 。 
一 元 势 的 值 如 表 5-3 所 示 。 像 素 为 “ 真 ”( 亮 ) 的 势 值 为 0.4， 为 “ 假 ”( 暗 ) 的 势 值 是 
0.6。 表 5-4 展示 了 来 自 4 个 像素 组 合 的 势 值 。 两 个 像素 有 相同 值 的 势 值 为 0.9， 而 其 他 
两 种 情况 的 势 值 为 0.1。 这 两 张 表格 涵盖 了 模型 中 的 所 有 势 。 
表 5-3 可 能 世界 一 元 势 值 示例 
变 量 势 值 
Pixel 11 0.4 
Pixel 12 0.4 
Pixel 21 0.4 
Pixel 22 0.6 
表 5-4 可 能 世界 示例 的 二 元 势 值 
变量 1 变量 2 势 值 
Pixel 11 Pixel 12 0.9 
Pixel 21 Pixel 22 0.1 
Pixel 11 Pixel 21 0.9 
Pixel 12 Pixel 22 0.1 
接 下 来 , 将 所 有 势 的 值 相 乘 。 在 我 们 的 例子 中 将 得 到 0.4 x 0.4 x 0.4x0.6x0.9x0.1 





x 0.9 x 0.1 = 0.00031104。 为 什么 相 乘 ? 回 
可 能 世界 除了 一 个 势 之 外 概率 均 相 同 ， 导 
比 。 这 正 是 将 概率 乘 以 势 值 时 产生 的 效果 。 





个 可 能 世界 的 “概率 ” 
我 在 “概率 ”上 








格 
的 


如 果 这 






































1 引号 是 因为 这 3 
的 “概率 ”总 和 不 为 1。 这 个 问题 很 容易 解决 ， 要 得 


化 从 势 值 乘积 计算 出 来 的 “概率 ”。 可 以 将 这 些 值 称 为 未 规格 化 概率 。 未 规格 化 概率 






































想 一 下 “其 人 





也 条 件 都 相同 ”的 原则 。 如 果 两 个 















































8 么 这 些 可 能 世界 的 概率 就 与 它们 的 势 
































继续 这 一 失 





























不 真 的 是 个 概率 。 当 您 这 档 





























总 和 称 为 规格 化 因子 , 通常 用 字母 Z 表示 。 这 样 , 将 未 规格 化 概率 除 以 Z 就 








过 程 对 您 来 说 很 


到 任何 可 能 世界 的 概率 ， 


E 理 ， 将 所 有 势 的 值 相 乘 就 得 到 一 


























将 势 值 相 乘 时 ， 得 到 


只 需要 规 














得 


可 





及 烦 ， 不 要 担心 ，Eigaro 负责 所 有 的 计算 。 
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这 一 讨论 有 个 意外 的 发 现 。 在 贝 叶 斯 网 络 中 ， 您 可 以 通过 将 相关 的 CPD 条 目 相 乘 ， 
计算 出 可 能 世界 的 概率 。 在 马尔 科 夫 网 络 中 , 您 无 法 在 不 考虑 所 有 可 能 世界 的 情况 下 确 
任何 可 能 世界 的 概率 。 您 需要 计算 每 个 可 能 世界 的 未 规格 化 概率 , 才能 计算 出 规格 化 基 
因此 ， 有些 人 认为 表示 马尔 科 夫 网 络 比 贝 叶 斯 网 络 更 难 ， 因 为 解释 定义 概率 的 数值 更 加 
难 。 我 认为 ， 如 果 您 牢记 “其 他 条 件 都 相同 ”原则 ， 就 可 以 自信 地 定义 马尔 科 夫 网 络 的 多 
数 。 您 可 以 将 规格 化 因子 的 计算 留 给 Figaro 完成 。 当 然 ， 贝 叶 斯 网 络 和 马尔 科 夫 网 络 尼 
参数 都 可 以 从 数据 中 学 习 。 根 据 应 用 程序 中 关系 的 种 类 ， 使 用 更 适合 于 您 的 结构 。 
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沙 转 
















































































5.5.2 ”表示 马尔 科 夫 网 络 并 用 其 进行 推理 


马尔 科 夫 网 络 在 一 个 方面 绝对 比 贝 叶 斯 网 络 简单 : 推理 模式 。 马尔 科 夫 网 络 没有 诱导 
依赖 性 的 概念 。 只 要 路 径 不 被 已 经 观察 到 的 变量 所 阻塞 ， 您 就 可 以 沿 着 任何 路 径 从 一 个 变 
量 向 另 一 个 变量 推理 。 如 果 两 个 变量 之 间 有 一 条 路 径 ， 它 们 就 是 相关 的 ， 如 果 一 组 变量 阻 
塞 了 两 个 变量 之 间 的 所 有 路 径 ， 这 两 个 变量 在 这 一 组 给 定 的 变量 下 就 是 条 件 独立 的 。 
而 且 ， 因 为 马尔 科 夫 网 络 中 的 所 有 边 都 没有 方向 ， 因 此 也 没有 因果 或 者 过 去 与 未 来 
的 概念 。 您 通常 不 会 考虑 预测 未 来 结果 或 者 推理 当前 观测 的 过 去 原因 之 类 的 任务 。 作 为 
替代 ， 您 简单 地 在 其 他 变量 给 定 的 情况 下 推导 一 些 变量 的 值 。 

用 Figaro 表示 图 像 恢复 模型 

在 图 像 恢 复 应 用 中 ， 您 假定 观察 到 了 一 些 像 素 ， 而 其 余 像素 无 法 观察 到 ， 和 希望 恢复 
无 法 观察 的 像素 。 您 将 使 用 前 一 小 节 描述 的 模型 ， 该 模型 指定 了 每 个 像素 点 亮 的 势 值 和 
相 邻 像素 有 相同 值 的 势 值 。 下 面 是 表示 该 模型 的 Figaro 代码 。 在 5.1.2 小 节 中 ， 我 曾经 
说 过 ， 描 述 对 称 关 系 有 两 种 方法 一 一 约束 方法 和 条 件 方法 。 下 面 的 代码 使 用 约束 方法 : 

设置 每 个 变量 上 的 一 


val pixels = Array.fill(10, 10) (Flip(0.4)) | 元 约束 













































































































































































































































































































































































































































































def setConstraint(ils Int; 31* TD i123 Tnty 23 Int);: { 


val pixell = Pixels(il) (j1) 根据 坐标 设置 
val pixel2 = Pixels(i2) (j2) 一 对 变量 上 的 





val pair = ^^(pixell, pixel2) 
pair.addConstraint (bb => if (bb._ 1 == bb._ 2) 0.9; else 0.1) 
} 





二 元 约束 





Fox “f 
1 <- 0 until 10 
] 一 a | Et 
J 对 所 有 相 邻 变量 应 用 








et 
if (1 <=" 8) SetConstraint (i; 1 T+1;, 53) 





二 元 约束 


if (j <= 8) setConstraint (i, j, i, j+1) 
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下 面 是 代码 的 一 些 说 明 。 

四 在 像素 定义 中 , Array.fill(10, 10)(Flip(0.4)) 创 建 一 个 10X 10 的 数组 并 用 Flip(0.4) 
的 不 同 实例 填充 数组 的 每 个 元 素 。 不 同 的 像素 都 用 不 同 的 Flip 元 素 定义 ， 这 很 
重要 ， 因 为 它们 都 有 不 同 的 值 。 

四 您 可 能 觉得 奇怪 ， 为 什么 对 一 元 势 使 用 Flip 元 素 而 不 使 用 约束 。 对 于 一 元 势 ， 

通常 的 Figaro 方式 或 者 约束 定义 效果 相同 。 在 这 个 例子 中 ，Flip 得 到 true 值 

的 概率 为 0.4， 得 到 false 值 的 概率 为 0.6。 这 些 概率 将 相 乘 得 到 可 能 世界 的 未 规 

格 化 概率 ， 和 通过 约束 规定 的 一 样 。 

实际 上 ， 即 便 使 用 Figaro 编码 马尔 科 夫 网 络 ， 每 个 Figaro 元 素 也 必须 用 某 种 类 

型 的 元 素 构造 程序 ， 以 通常 的 方式 定义 。 如 果 您 的 元 素 没 有 一 元 约束 ， 这 种 常 

规 的 Figaro 构造 程序 应 该 是 中 性 的 , 不 偏向 任何 可 能 世界 。 您 可 以 使 用 Flip(0.5) 
或 者 Uniform 元 素 实 现 这 一 点 。 

图 ”在 setConstraint 的 定义 中 ，^ 是 Figaro 配对 构造 程序 。^^(pixell1, pixel2) 创 建 一 

个 元 素 ， 其 值 是 元 素 pixell 和 pixel2 值 的 配对 。 

加 ”在 for 循环 中 ，0 until 10 是 表示 整数 0 一 10《〈 不 含 ) 的 Scala 标记 法 ; 换言之 ， 

表示 的 是 整数 0,1,…,9。 如 果 想 要 包含 整数 10， 应 该 使 用 0 to 10。 

加 ”for 循环 还 展示 了 髓 套 循环 的 一 个 例子 。 在 其 他 语言 中 ， 这 用 for 循环 中 的 另 一 
个 for 循环 实现 。 在 Scala 中 ， 可 以 将 两 个 循环 放 在 同一 个 for 首 标 里 。 

用 像素 恢复 模型 推理 
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您 希望 使 用 像素 恢复 模型 ， 根 据 已 经 观察 到 的 像素 推理 无 法 观察 的 像素 值 。 您 需要 
3 个 条 件 : 摄 入 和 处 理 证 据 的 手段 ， 计 算 像素 最 可 能 状态 的 手段 和 碍 看 结果 的 手段 。 我 





们 逐个 研究 这 些 条 件 。 
处 理 证 据 : 如 果 您 有 一 个 10 x 10 的 像素 阵列 , 数据 可 能 是 一 个 10 x 10 的 字符 数组 ， 
其 中 每 个 字符 是 0 (表示 关 )、1 (表示 开启 ) 或 者 ? (表示 未 知 )。 您 可 以 使 用 简单 的 
setEvidence 函数 处 理 这 种 数据 : 


def setEvidence(data: String) = { 




































































for { n <- 0 until data.lengthn } { 
val i =n/ 10 
val j] =n % 10 
data(n) match { 














case '0' => pixels (i) (j) .observe (false) 使 用 Scala 模式 匹配 ,在 本 例 中 这 很 

case '1' => pixels (i) (j) .observe (true) 像 其 他 语言 中 的 switch 语句 。 表示 

case _ => () 默认 情况 。 所 以 对 于 “? ”的 情况 
} 没有 任何 观测 值 











看 没有 考虑 过 的 一 种 新 查询 。 过 去 ， 
































计算 最 有 可 能 的 像素 状态 : 这 个 例子 介绍 了 前 
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望 估算 元 素 的 后 验 概率 ,这 次 , 您 感 兴趣 的 是 元 素 的 最 可 能 值 (有 具 
























































您 希 
但 是 您 对 与 其 他 元 素 无 关 的 单独 元 素 最 可 能 值 不 感 兴趣 ， 而 是 对 所 
合 感 兴趣 。 您 希望 知道 哪个 可 能 世界 的 概率 最 高 。 

这 种 查询 在 Figaro 中 称 为 最 可 能 解释 (MPE ) 查询 ， 因 为 您 希望 知道 






























































Ws 
种 方式 运行 : 
val algorithm = MPEBeliefPropagation(10) 
algorithm.start () 











有 最 高 概率 的 值 )。 
了 变量 值 的 最 可 能 组 


能 解释 数 











据 的 可 能 世界 。MPE 查询 的 算法 不 同 于 目前 为 止 您 所 见 过 
相关 的 。 在 本 例 中 ， 您 将 使 用 为 计算 MPE ee 这 种 算法 
MPEBeliefPropagation。 置 信 传 播 是 一 种 迭代 算 潜 
在 本 例 中 使 用 10 次 迭代 。 您 可 以 创建 MPEBeliefPropagation 算法 






































查看 结果 : 就 是 遍历 所 有 像素 ， 获 得 其 最 可 能 值 
Propagation 的 mostLikelyValue 方法 获得 元 素 的 最 可 能 值 。 





代码 如 下 : 


for { 
0 LRNEELY .0 
] 导 开 
Fo 0 nt 再 二 


val mlv = algorithm.mostLikelyValue (pixels (i) (J 


if (mlv) print('1') else print ('0') 
} 
Println() 


要 运行 这 个 模型 ， 您 必须 提供 一 些 输入 。 一 般 来 说 ， 这 些 














一 个 模块 以 编程 方式 提供 。 为 了 例子 的 简洁 ， 


val data = 

"""00?000?000 
0?010?0010 
110?010011 
11??000111 
11011000?1 
1?0?100?10 
00001?0?00 
0010??0100 
01?01001?0 
0??30001102?2""".filterNot (_ .isWhitespace) 








setEvidence (data) 















































Scala 的 "构造 程序 

创建 跨越 数 行 的 字符 
您 过 滤 所 有 空白 字符 
生 100 个 字符 的 字符 








的 概率 计算 算法 , 但 是 


上 一 个 参数 控 和 
的 实例 ， 


允许 

















Ere 





如 
5 


它们 是 


被 称 作 


过 代 次 数 。 
告诉 它 以 这 


您 可 以 使 用 MPEBelief- 


痊 入 从 文件 读 入 或 者 由 另 
直接 定义 输入 ， 如 : 
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在 这 些 数据 上 运行 时 ， 程 序 输出 如 下 : 


0000000000 
0001000010 
1100010011 
T00000L1L 
LO TLO0OLT 
1000100010 
0000100000 
0010000100 
00100100 
0000001100 


马尔 科 夫 网 络 就 介绍 到 这 里 。 本 章 篇 幅 很 长 ， 但 是 您 已 经 从 中 学 习 了 不 少 知 识 。 现 
在 ， 您 知道 概率 模型 的 所 有 主要 原理 ， 可 以 为 各 种 应 用 编写 概率 程序 。 接 下 来 的 几 章 以 
本 章 素材 为 基础 ， 并 对 其 进行 详细 的 讲解 ， 为 您 提供 更 多 程序 编写 能 力 。 下 一 章 您 将 从 
研究 Scala 和 Figaro 容器 的 使 用 开始 ， 构 建 更 大 、 更 结构 化 的 模型 。 


Law) 





































































































小 结 





国 ”概率 模型 编码 的 是 变量 之 间 的 关系 。 对 称 关系 产生 无 向 依赖 性 ， 而 不 对 称 关系 
产生 有 向 依赖 性 。 

量 有 向 依赖 性 从 原因 指向 结果 。 因 果 关 系 多 种 多 样 。 

贝 叶 斯 网 络 使 用 有 向 非 循 环 图 编码 有 向 依赖 性 。 

图 ” 贝 叶 斯 网 络 中 箭头 的 方向 不 一 定 是 推理 的 方向 。 贝 叶 斯 网 络 可 用 于 网 络 中 所 有 
方向 的 推理 。 

加 ”马尔 科 夫 网 络 使 用 无 向 图 编码 无 向 依赖 性 。 

加 ”如 果 可 以 识别 模型 中 变量 间 的 关系 类 型 并 使 用 它们 编写 程序 ， 就 不 会 出 错 。 


















































































































































































































































练习 





在 www.manning.com/books/practical-probabilistic-programming 上 可 以 找到 部 分 练习 
的 解答 。 

1. 对 于 如 下 每 对 变量 ， 确 定 它们 之 间 的 依赖 性 是 有 向 还 是 无 向 的 ， 如 果 是 有 向 的 ， 
说 明 箭 头 的 方向 。 

a) 玩家 的 扑克 牌 和 玩家 的 赌注 。 

b) 玩家 1 的 扑克 牌 和 玩家 2 的 扑克 有 牌 。 

c) 我 的 情绪 和 今天 的 天 气 。 

d) 我 的 情绪 和 我 是 否 吃 过 早餐 。 
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第 5 章 用 贝 叶 其 

















e) 起 居室 的 温度 和 房屋 空 





的 设置 。 


四 
罗 























f) 起 


居室 的 温度 和 起 居室 温 











度 计 的 读数 。 























g) 起 居室 的 温度 和 厨房 的 
h) 新 闻 报道 的 主题 和 其 内 














温度 。 


容 


i) 新 闻 报 道 的 摘要 和 报道 的 内 容 。 























2. 对 如 下 各 组 变量 ， 画 出 
a) 玩家 1 的 扑克 牌 、 玩 家 





























变量 上 的 贝 叶 斯 网 络 。 
2 的 扑克 牌 、 玩 家 1 的 赌注 和 


























和 马尔 科 夫 网 络 建立 依赖 性 模型 

















玩家 2 跟 进 的 赌注 。 





b) 我 起 床 时 的 情结、 上午 10 点 的 情绪 、 今 天 的 天 气 和 我 是 否 吃 过 早餐 。 


c) 起 居室 的 温度 、 厨 房 的 
计 读 数 。 
d) 新 闻 报 道 的 主题 、 报 道 
3. 您 的 任务 是 设计 一 个 贝 
帮助 您 决定 



























































a) 模型 中 有 哪些 变量 ? 
b) 绘制 这 些 变量 上 的 贝 叶 
c) 选择 每 个 变量 的 Figaro 
d) 在 Figaro 的 函数 形式 






































使 用 的 材料 和 每 种 材料 
便 优 化 不 同 的 食品 质量 ， 如 辛辣 度 和 细腻 度 。 


























温度 、 房 屋 空调 的 设置 、 起 








的 摘要 、 报 道 的 内 容 和 对 报道 的 记 











居室 温度 计 读 数 和 厨 
































I 
> 
o 





叶 








其 网络， 建立 妆 汤 京 制 过 程 


的 模型 。 这 个 网 络 的 目标 




















斯 网 络 结构 。 
函数 形式 。 
填 入 数值 参数 。 

















的 数量 ， 以 及 训 调 中 的 变量 〈 如 热量 和 时 间 )， 以 








e) 使 用 Figaro 模型 回答 “在 给 定 的 材料 下 ， 您 应 该 花费 多 长 时 间 京 制 菜 汤 ， 才 能 





ei 








角 保 最 优 的 细腻 度 ”。 




















获胜 。 先 赢 6 局 的 选手 
立 它们 的 模型 )。 双 方 轮流 发 
位 选手 赢得 发 球 局 

















球 











5. 现在 ， 细 化 您 的 网 球赛 模型 建立 




















先 得 4 分 的 选手 赢得 一 局 
编 
局 中 获得 一 分 的 概率 。 同 样 ， 多 











4. 网 球 比赛 分 为 一 定数 量 


， 除 非 双 方 都 得 到 3 分 ， 在 这 种 性 














的 “ 盘 ”， 每 盘 包 含 一 定数 量 的 “ 
赢得 一 盘 〈 我 们 忽略 “平局 决 有 





， 每 次 一 局 。 编 写 一 个 Figaro 


的 概率 ) 并 预测 比赛 胜 者 。 


E”， 但 是 在 练习 5 中 您 就 可 以 建 


上 局» 
本 。 用 








两 盘 的 选手 




















程序 ， 取 得 两 个 参数 〈 每 























单独 得 分 的 模型 。 


一 





























在 一 局 中 ， 选 手 
况 下， 先 领先 两 分 者 取胜 。 














门 努力 抢 分 。 




































































模型 ， 建 立 每 一 分 ! 

















发 球 能 








、 球 速 和 失误 率 等 变量 。 


连续 对 打 的 模型 。 
您 可 以 决定 模型 细节 ， 包 括 连 续 对 打 中 每 次 击 球 时 选 





写 一 个 Figaro 程序 ， 和 之 前 一 样 取 得 两 个 参数 , 但 是 现在 这 些 参数 是 每 位 选手 在 发 球 
您 的 程序 预测 比赛 的 胜 才 





选手 们 可 以 采用 

































































手 和 球 的 位 置 。 
7. 我 的 房子 有 由 楼 下 的 恒温 调节 器 控制 的 中 央 空 调 系统 。 顶 层 通 向 比 一 楼 热 。 创 
建 一 个 马尔 科 夫 网 络 ， 表 示 整 个 房子 的 温度 〈 现 在 忽略 恒温 调节 器 )。 编 写 一 个 Figaro 















































模型 表示 该 网 络 。 使 用 该 模型 计算 在 一 楼 的 温度 为 72 华氏 度 





的 概率 。 


时 ， 顶 楼 至 少 为 80 华氏 度 
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8. 现在 ， 在 模型 中 添加 恒温 调节 器 和 室外 气温 以 及 窗户 是 否 打 开 。 这 个 模型 将 结 
合 有 向 和 无 向 依赖 性 ， 所 以 不 是 纯粹 的 马尔 科 夫 网 络 , 但 是 在 Figaro 中 很 容易 进行 这 样 
的 组 合 。 编 写 Figaro 程序 ， 用 其 帮助 确定 是 否 应 该 打开 顶层 的 窗户 。 

9. 考虑 第 3 章 的 垃圾 邮件 过 滤 应 用 。 在 该 应 用 中 ， 每 封 电子 邮件 被 单独 对 待 。 现 
在 假定 您 有 来 自 同一 发 件 人 的 多 封 电子 邮件 。 它 们 的 垃圾 邮件 状态 高 度 相 关 。 

a) 创建 一 个 马尔 科 夫 网 络 以 捕捉 这 些 关联 性 。 

b) 每 个 垃圾 邮件 的 贝 叶 斯 网 络 如 图 3-8 所 示 。 在 练习 9a) 中 的 马尔 科 夫 网 络 中 复 
制 这 个 网 络 。 同 样 ， 这 是 一 个 组 合 了 有 向 和 无 向 依赖 性 的 网 络 。 


注意 : 尽管 我 曾经 说 过 ， 对 象 的 分 类 决定 其 属性 ， 并 将 这 种 方法 用 于 垃圾 邮件 过 滤器 ， 但 是 在 
某 些 情况 下 ， 从 反方 向 推理 是 有 意义 的 。 当 所 有 特征 总 是 可 以 观测 到 时 ( 比如 垃圾 邮件 
过 滤器 的 情况 )， 情 况 就 是 如 此 。 此 时 ， 明 确 地 建立 观察 到 的 特征 之 上 的 概率 分 布 模型 
可 能 是 一 种 浪费 。 相 反 ， 可 以 创建 一 个 模型 ， 由 每 封 电子 邮件 的 特征 决定 邮件 的 分 类 。 
电子 邮件 分 类 与 练习 9a) 中 的 马尔 科 夫 网 络 关联 。 这 种 模型 称 作 条 件 随 机 场 ， 广 泛 地 
用 于 自然 语言 理解 和 计算 机 视觉 应 用 中 。 
在 此 ， 我 不 打算 详细 介绍 条 件 随机 场 ， 但 是 要 提醒 熟悉 这 一 模型 的 人 们 ， 在 Figaro 
中 很 容易 表现 它 。 诀 窍 是 确保 观察 到 的 电子 邮件 特征 不 是 Figaro 元 素 而 是 Scala 变 
量 ， 帮 助 确定 表示 电子 邮件 是 不 是 垃圾 邮件 的 元 素 之 上 的 概率 分 布 。 当 然 ， 模 型 上 
的 任何 可 学 习 参 数 都 是 Figaro 元 素 ,它们 可 以 与 代表 决定 垃圾 邮件 概率 特征 的 Scala 
变量 相互 作用 。 
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第 6 章 使 用 Scala 和 Figaro 集合 
构建 模型 

本 章 介 绍 如 下 内 容 : 

图 ”如何 使 用 集合 组 织 概率 模型 

加 ”Scala 集合 和 Figaro 集合 之 间 的 差别 、 各 自 的 作用 


以 及 如 何 结合 使 用 
可 以 用 集合 表达 的 常见 建 模 模 式 ， 包 括 层 次 化 贝 叶 
斯 建 模 、 对 象 数量 未 知 的 建 模 情况 以 及 在 连续 区 间 









































































































































F 多 同类 型 的 项 目 组 织 在 

















上 定义 的 模型 

在 前 两 章 中 ， 您 已 经 为 概率 建 模 打 下 了 坚实 的 基础 。 本 章 专 注 于 概率 编程 的 编程 方 
面 ， 展 示 利 用 编程 语言 的 特性 帮助 您 构建 概率 模型 的 途径 ， 特 别 关 注 集合 。 

集合 是 高 级 编程 语言 最 有 用 的 特性 之 一 ， 因 为 它们 能 够 将 询 
一 起 ， 作 为 一 个 群 组 处 理 。 例 如 ， 如 果 您 要 处 理 许多 整数 ， 可 以 将 其 放 在 一 个 数组 中 ， 


然后 编写 一 个 循环 读 取 数 组 ! 
您 可 以 编写 一 个 map 函数 将 数组 








概率 编 
等 函数 操作 。 


























































































































的 所 有 条 目 ， 将 其 
的 所 有 条 目 乘 以 2, 再 ) 
程 也 是 如 此 ; 如 果 您 有 许多 同类 型 的 变量 , 可 以 将 其 放 入 
在 Figaro 中 ， 上 述 操作 可 以 两 种 方式 进行 。 第 一 种 是 使 


您 是 一 位 有 经 验 的 程序 员 ， 无 疑 会 熟悉 数组 、 
一 个 丰富 的 集合 库 ，4 
Figaro 也 提供 了 
































乘 以 2 并 加 总 。 或 者 , 在 函数 式 编程 中 ， 
] 一 个 fold 函数 执行 加 总 操 

















{iy 


广 访 























,用 map 及 fold 


集合 。 如 果 
































列表 、 集 、 了 映射 等 集合 类 型 。Scala 提供 
绢 助 您 组 织 元 素 和 构建 概率 程序 。 
个 集合 库 ， 添 加 了 处 理 许多 元 素 的 强大 功能 。 您 可 以 用 Figaro 集 






































6.1 


6.1.1 


合 完成 常规 Scala 集合 所 不 容易 完成 上 
具备 的 功能 





ea 





。 所 以 两 





您 将 首先 关注 常规 











6.1 使 





者 对 概率 模型 


Scala 集合 





以 及 





如 何 、 
到 Figaro 集合 的 两 大 } 


何 时 在 一 个 


台 





程序 中 




















j 处 : 








者 空间 的 连续 
代码 中 找到 它们 。 
而 且 ， 您 应 该 很 熟悉 第 5 章 


能 。 


区 间 上 定 





于 编程 ， 
熟悉 Scala 集合 是 很 有 益 的 ， 


义 概率 模型 。 














使 用 Scala 集合 























































































































使 用 Scala 和 Figaro 集合 。 妊 
使 用 可 变 大 小 数组 建立 对 象 数量 未 知 的 模型， 


介绍 的 贝 叶 








gd Scala 集合 
的 操作 。 另 一 方 
4 都 是 有 用 的 。 
合 的 使 用 。 然 后 研究 Figaro 集 


























人 
Hs 


它们 所 能 完 
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面 ，Scala 集合 提供 了 Figaro 集合 所 


成 的 操作 





E 本 章 的 最 后 两 节 ， 


因此 包含 了 许多 代码 。 本 章 包含 7 个 完整 的 程序 ， 
但 是 这 些 代 码 并 没有 使 用 特别 复杂 的 功 
斯 网 络 概念 。 














， 您 将 看 


以 及 在 时 间或 





可 以 在 本 书 的 























































































































目前 为 止 看 到 的 例子 处 理 的 是 所 有 事物 中 的 个 例 。 在 伦 勃 朗 的 例子 中 , 您 有 一 幅 画 ， 
它 只 有 一 个 主题 、 一 个 尺寸 和 一 个 鲜艳 度 。 如 果 和 希望 处 理 许多 事物 一 例如 ， 一 个 包含 
许多 画作 的 模型 ， 其 中 每 幅 画 都 有 不 止 一 个 主题 ， 该 怎么 做 呢 ? 

在 编程 中 ， 您 使 用 集合 保存 许多 一 起 处 理 的 同类 事物 。 例 如 ， 您 可 能 有 一 个 数组 ， 
可 以 使 用 这 个 数组 对 其 中 的 每 个 数字 进行 某 种 运算 ， 或 者 加 总 所 有 数字 。 循 环 读 取 数组 
中 所 有 数字 而 无 需 将 其 指出 ， 可 以 大 大 缩短 程序 并 且 提 供 灵 活性 ， 因 为 您 可 以 只 在 
一 处 改变 数组 的 大 小 。 如 果 没 有 数组 ， 您 就 必须 完全 展开 这 个 循环 ， 为 同一 程序 中 不 同 
大 小 的 数组 使 用 相同 的 代码 将 变 得 更 加 困难 。 

使 用 Scala 集合 为 概率 编程 提供 了 同样 的 好 处 。 我 将 从 取决 于 单一 变量 的 许多 同类 
变量 和 开始， 提供 Scala 集合 多 种 典型 应 用 模式 的 例子 。 





为 依赖 于 单一 变量 的 多 个 变量 建立 模型 
我 们 来 看 一 个 经 典 的 例子 ， 在 第 



































的 硬币 币 
它 掷 出 





它 可 





























一 次 掷 币 


四 的 概率 )。 





您 还 希望 预测 











和 4 章 中 您 





能 有 偏差 , 您 不 知道 它 正 























-1 展示 了 这 利 








出 现 正 


























以 ) 





j 于 任何 








情况 的 贝 叶 大 
































面向 上 和 背面 


























4 据 币 结果 。 
根 节 点 是 Bias (1 





的 概率 的 实数 变量 。 


图 : 

















掷 币 次 数 。 对 于 每 次 括 币 ， 结 果 为 了 


想象 ， 自 己 将 观察 前 100 次 掷 币 ， 并 预测 第 101 次 ] 





展示 了 101 次 搓 























向 上 的 概率 , 希望 估算 这 种 14 





首次 过 到 过 这 种 情况 。 您 有 一 个 来 源 可 疑 














筷 差 (用 











局 差 )， 这 是 一 个 代表 人 
币 结果 的 节点 ,但 是 这 个 网 


E 面 的 概率 等 于 Bias 变量 值 。 








铸币 的 结果 。 


F 何 








您 可 以 


每 次 掷 币 的 结果 取决 于 偏差 


用 Figaro 表现 掷 币 模型 





第 6 章 使 用 Scala 和 Figaro 集合 构建 模型 


Bias (偏差 ) 是 根 节点 
| 






Toss 101 


图 6-1 掷 偏 币 的 贝 叶 斯 网 络 


























这 个 例子 很 容易 通过 表示 所 有 已 观察 到 的 掷 币 结果 的 Scala 数组 , 在 Figaro 中 表现 。 














我 们 的 程序 将 读 入 表示 之 前 观察 到 的 掷 币 结 


























参数 。 您 可 以 从 参数 中 得 到 数组 的 大 小 ， 下 面 是 模型 的 代码 ; 
val outcomes = args (0) 


val numTosses = outcomes.length 创建 一 个 大 小 为 mumTosses 的 数 
组 ， 其 中 每 个 项 目 是 Flip(bias) 
, 的 不 同 实例 。 这 个 数组 的 每 个 元 


val bias = Betal(2， 


Val tosses = Array.fill (numTosses) (Flip (bias)) 




















val nextToss = Flip(bias) 








为 了 建立 偏差 的 模型 ， 您 使 用 



































时 ， 使 用 Beta 元 素 建立 了 单词 在 

















果 《由 字符 “H” 和 “T” 组 成 ) 的 命令 生 


素 代表 单独 的 一 次 硬币 投掷 


了 一 个 Beta 元 素 。 在 第 3 章 中 设计 垃圾 邮件 过 滤器 
电子 邮件 中 出 现 次 数 的 模型 。 我 曾经 提 到 ，Beta 元 素 


和 Flip 及 Binomial 配合 得 很 好 ， 所 以 使 用 Beta 表示 硬币 的 偏差 是 合适 的 。Beta 和 Flip 


之 间 关 系 的 更 多 细 
接 下 来 ， 您 他 








节 参 见 下 面 的 补充 材料 。 

















| 建 一 个 括 币 数组 ， 表 示 过 去 观察 到 的 掷 币 结果 。 您 使 用 











Scala 的 


Array.fill 方法 创建 指定 项 目 数量 的 数组 ， 并 提供 每 个 项 目的 定义 。 对 于 数组 中 的 每 个 











Ce) 
| 





目 ， 该 定义 是 单独 评估 的 。 所 以 ， 每 个 项 目 是 Flip(bias) 的 单独 实例 一 表示 掷 出 正 



































面 的 概率 为 bias 的 单独 掷 币 结果 。 最 后 ， 再 创建 一 个 Flip 元 素 ， 表 示 试 图 预测 的 下 一 





次 掷 币 结 


CY 











共 轴 先 验 以 及 结合 Beta 与 Flip 的 原因 

















在 概率 论 中 ，Flip 的 标准 名 称 是 伯 努 利 分 布 。Beta 分 布 被 称 为 伯 努 利 分 布 的 共 罗 先 验 。 这 


意味 着 ， 如 果 您 使 用 一 个 Beta 变量 和 一 个 伯 努 利 变量 ， 且 Beta 变量 代表 伯 努 利 变量 为 true 





的 概率 ， 则 根据 伯 努 利 变 量 的 结果 调节 Beta 变量 ， 可 以 产生 另 一 个 Beta 变量 。 





















































6.1 使 用 Scala 集合 159 




















现在 是 更 仔细 地 观察 Beta 元 素 的 两 个 参数 的 时 候 了 。 第 一 个 参数 a 表示 想象 中 的 已 见 正 五 
次 数 加 上 1。 第 二 个 参数 6 与 a 的 定义 类 似 ， 但 表示 的 是 背面 次 数 加 1。 在 您 的 例子 中 ， 使 用 
Beta(2,5)， 表 示 您 在 学 习 之 前 想象 自己 已 经 见 到 1 次 正面 和 4 次 背面 的 结果 。( 顺便 说 一 句 ， 
在 正面 和 背面 次 数 上 加 1 是 数学 上 的 惯例 ; 在 下 面 就 会 看 到 ， 这 使 下 一 次 掷 币 的 预测 变 得 更 简 
单 ) 这 使 得 您 可 以 编码 这 样 的 事实 : 您 在 看 到 任何 数据 之 前 ， 对 偏差 有 某 种 先 验 信念 。 如 果 没 
有 任何 先 验 信念 ， 可 以 使 用 Beta(1,1)。 

现在 ， 假 定 观察 到 一 次 掷 币 的 结果 为 正面 。 您 可 以 将 wx 递增 1 以 获得 后 验 概率 。 类 似 地 ， 
如 果 掷 币 结果 为 背面 ， 则 将 B 递 增 1。 一 般 来 说 ， 如 果 观 测 到 次 正面 和 7 次 背面 ， 则 将 a 递增 
/， 将 B 递 增 tf。 所 以 ， 如 果 先 验 分 布 为 Beta(2，5) 且 观察 到 3 次 正面 和 2 次 背面 ， 后 验 分 布 为 
Beta ( 5,7 )。 这 就 是 Beta 分 布 是 伯 努 利 分 布 共 斩 先 验 的 原因 。 

当 偏差 呈 Beta 分 布 时 ， 预 测 下 一 次 掷 币 是 不 是 正面 也 很 容易 。 发 生 这 种 情况 的 概率 为 w / 
(a+B)， 因 此 对 Beta(5,7) 是 5/12。 

本 例 中 的 计算 很 简单 ， 不 需要 编程 语言 就 能 完成 。 但 是 实际 中 的 计算 可 能 比 这 个 复杂 得 多 ， 通 
常 无 法 用 这 么 简单 的 公式 计算 后 验 分 布 并 做 出 预测 。 而 且 ， 您 不 一 定 在 Figaro 中 使 用 共 斩 先 验 。 不 
过 ， 在 可 能 的 情况 下 使 用 共 罗 先 验 是 有 意义 的 ， 因 为 这 是 表示 关于 某 个 参数 先 验 知识 的 明智 手段 。 


使 用 Scala 数组 使 证 据 的 陈述 变 得 简单 。outcomes 是 从 命令 行 读 入 的 ， “H” 和 
“T” 字 符 表示 , 每 个 字符 表示 一 次 掷 币 。 您 可 以 使 用 如 下 代码 观察 每 次 搓 币 的 对 应 结果 : 


3 ,六 











































































































































































































































































































































































































































































































toss <- 0 until numTosses 
}” 
Val outcome = outcomes (toss) == 'H' 


tosses (toss) .observe (outcome) 


用 任意 时 间 算 法 进行 推理 

您 已 经 创建 模型 并 陈述 了 证 据 ， 现 在 可 以 进行 推理 了 。 本 章 介绍 一 种 进行 推理 的 新 
方法 , 它 能 为 您 提供 对 推理 运行 时 间 的 精确 控制 , 那 就 是 使 用 任意 时 间 算法 。 顾名思义 ， 
任意 时 间 算 法 是 可 以 运行 任意 时 间 ， 产 生 在 给 定时 间 内 最 佳 答案 的 算法 。 您 可 以 告诉 算 
法 想 要 运行 的 时 间 ， 算 法 将 尽 其 所 能 。 

在 Figaro 中 ,运行 任意 时 间 算 法 和 使 用 常规 算法 类 似 。 创 建 该 算法 的 一 个 实例 并 告 
诉 它 开始 。Figaro 中 的 任意 时 间 算 法 运行 于 单独 线程 ， 所 以 您 可 以 在 算法 运行 的 同时 做 
任何 工作 。 一 般 来 说 ， 您 将 在 算法 运行 期 间 休 眠 。 然 后 ， 查 询 算法 获得 想 要 的 信息 。 最 
后 ， 杀 和 死 该 算法 。 杀 死 任意 时 间 算 法 很 重要 ， 因 为 这 会 释放 该 线程 ， 否则， 该 算法 将 继 
续 占 用 资源 。 


下 面 是 在 我 们 的 搓 币 模型 上 使 用 重要 性 抽样 进行 推理 的 代码 。 重 要 性 抽样 既 有 常规 
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6.1.2 
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的 一 次 性 版 本 (启动 之 后 一 次 性 完成 )， 也 有 任意 时 间 版 本 。 许 多 其 他 Figaro 算法 也 有 
一 次 性 和 任意 时 间 版 本 。 在 一 次 性 重要 性 抽样 中 ， 您 必须 告诉 算法 使 用 的 样本 数量 。 在 
任意 时 间 重 要 性 抽样 中 ， 不 需要 告诉 算法 使 用 多 少 样本 ， 因 为 它 将 在 可 用 时 间 内 取得 尽 
可 能 多 的 样本 。 


val algorithm = Importance (nextToss, bias) 














































































































algorithm.start () 





























圳 重 开 性 羊 的 一 个 
Thread.sleep (1000) ee 网 创建 重要 性 抽样 的 一 个 版 本 ， 目 
algorithm.stop () 等 待 1000 毫秒 标 是 查询 nextToss 和 bias Figaro 
知道 这 是 任意 时 间 版 本 ， 因 为 没 
有 样本 数量 的 参数 
Println("Average bias = " + algorithm.mean (bias)) 
Println("Probability of heads on next toss = "+ 


algorithm.probability (nextToss, true)) 


algorithm.kill () | 释放 所 有 资源 


在 参数 HTHHHHHTHTHHHTHHHHHH 下 ， 上 述 代 码 大 约 运 行 1 秒 钟 ， 产 生 如 下 
偷 出 : 


Average bias = 0.6641810675997326 
Probability of heads on next toss = 0.6414832927224574 


创建 层次 化 模型 


本 小 节 介 绍 如何 使 用 序列 ， 以 层次 化 的 方式 扩展 前 面 的 例子 。 想 象 一 下 ， 您 投掷 一 
枚 硬币 ， 这 枚 硬币 是 钱 袋 中 的 许多 硬币 中 的 一 个 ， 这 个 钱 袋 和 许多 其 他 钱 袋 装 在 一 个 箱 
子 里 ， 以 此 类 推 。 为 了 简单 起 见 ， 您 将 用 两 级 序列 建立 来 自 同一 个 钱 袋 的 掷 币 模型 ， 但 
是 很 容易 将 这 一 模型 推广 到 任意 级 别 。 

在 前 一 小 节 中 ， 您 已 经 了 解 掷 币 的 属性 〈 即 正面 是 否 向 上 ) 取决 于 硬币 的 属 
偏差 )。 本 小 节 中 ,硬币 的 偏差 取决 于 钱 袋 的 属性 。 确 切 地 说 ， 钱 袋 中 的 一 些 硬币 是 
平 ” 的 ， 也 就 是 出 现 正面 的 概率 为 30%， 而 其 他 硬币 是 偏 币 。 这 个 钱 袋 有 一 个 属性 ， 表 
示 袋 中 硬币 公平 的 概率 。 

这 个 例子 的 贝 叶 斯 网 络 如 图 6-2 所 示 。 这 个 网 络 有 3 个 层次 ， 对 应 于 层次 化 结构 的 
各 个 级 别 。 第 一 层 表示 钱 袋 ， 包 含 FairProbability 变量 。 第 二 层 表示 单独 的 硬币 及 其 偏 
差 。 网 络 中 有 3 个 硬币 , 但 是 很 容易 扩展 到 任意 数量 。 第 三 层 包含 每 个 硬币 的 各 次 投掷 。 
每 次 掷 币 有 两 个 下 标 ， 表 示 硬 币 编号 和 掷 币 编号 。 每 次 掷 币 的 结果 取决 于 对 应 硬币 的 偏 
差 。 不 同 硬币 投掷 的 次 数 可 能 不 一 样 ; 在 这 个 网 络 中 ， 第 3 个 硬币 投掷 3 次 ， 前 两 个 硬 
币 各 投掷 2 次 。 
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第 一 层 表 示 钱 袋 


第 二 层 表 示 钱 袋 中 的 硬币 


\ 
\ 





\ 





Toss 33 





第 三 层 表示 钱 袋 中 每 
枚 硬币 的 投掷 结果 











图 6-2 层次 化 模型 的 贝 叶 斯 网 络 














使 用 两 级 序列 可 以 捕捉 到 上 述 情况 。 第 一 级 有 两 个 序列 ， 每 个 序列 包含 对 应 于 特定 
硬币 的 Figaro 元 素 : 硬币 是 否 公平 ， 其 偏差 多 大 。 对 于 每 枚 硬币 ， 第 二 层 中 有 一 个 序列 
包含 代表 该 硬币 投掷 结果 的 Figaro 元 素 。 使 用 for 循环 很 容易 创建 Scala 序列 。 

该 模型 的 代码 如 下 ， 这 段 代 码 需要 一 些 命令 行 参数 ， 每 个 参数 代表 观察 到 的 硬币 。 
和 前 一 个 例子 一 样 ， 每 个 命令 行 参数 包含 H 和 了 字符， 表示 观察 到 的 硬币 投 搓 结果: 


val numCoins = args.length 





















































val fairpProbability = Uniform(0.0, 1.0) 


创建 一 个 长 度 为 numCoins 的 
序列 ， 其 中 的 每 个 条 目 是 一 个 
Flip(fairProbability) 元 素 





val isFair = 
for { coin <= 0 until numCoins } 


yield Flip(fairProbability) 














val biases = 对 于 每 枚 硬币 ， 如 果 它 是 公平 
for { coin <= 0 until numCoins } 的 ， 偏差 为 0.5; 否则 ， 偏差 为 
yield If(isFair(coin), Constant (0.5), Beta(2,5)) /| Beta(2.5) 
Val tosses = 
_ for { Coin <= 0 until numCoins } 
产生 掷 币 序 
列 的 序列 ， - eg 给 定 一 枚 硬币 , 生成 Flip(biases 
每 枚 硬币 一 { 3 0 2 args (coin) .Jength } (coin)) 元 素 的 序列 , 其 长 度 为 硬 
个 序列 | | Yield Flip lbiases lcoin})) 币 投掷 次 数 ， 从 命令 行 读 入 
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现在 ， 可 以 使 用 一 个 简单 的 二 维 for 循环 陈述 证 据 : 


for { 
coin <- 0 until numCoins 
toss <- 0 until args (coin) .length 
} { 
val outcome = args (coin) (toss) == 'H' 
tosses (coin) (toss) .observe (outcome) 





























最 后 ， 按 照 如 下 方式 运行 推理 : 


于 


val algorithm = Importance (fairProbability, biases(0) ) 
algorithm.start () 

Thread.sleep (1000) 

algorithm. stop() 


Val averageFairProbability = algorithm.mean (fairProbability) 

val firstCoinAverageBias = algorithm.mean (biases (0) 
Println("Average fairness probability: " + averageFairProbability) 
println("First coin average bias: " + firstCoinAverageBias) 


algorithm.kill () 


在 参数 HTHHT H THHH HHT 下 ， 上 述 代码 产生 如 下 的 输出 : 


Average fairness probability: 0.7079517451620699 
First coin average bias: 0.4852371044437457 





6.1.3 ”建立 同时 依赖 两 个 变量 的 模型 


在 前 一 小 节 中 ， 您 已 经 看 到 掷 币 的 结果 取决 于 硬币 的 偏差 ， 而 后 者 又 取决 于 钱 袋 的 
公平 概率 。 这 是 一 个 层次 化 组 织 。 另 一 种 方式 是 变量 同时 取决 于 两 个 其 他 变量 而 没有 任 
何 层 次 结构 。 对 于 使 用 Scala 集合 的 前 一 个 例子 ， 您 已 经 知道 如 何 用 二 维 数组 建立 这 种 
情况 的 模型 ， 其 中 的 一 个 变量 取决 于 两 个 其 他 变量 ， 每 个 变量 都 是 集合 中 的 一 个 项 目 。 
例如 ， 某 个 产品 在 某 个 地 区 的 销售 额 可 能 取决 于 产品 质量 和 品牌 在 该 地 区 的 渗透 率 。 这 


















































































































































































































































里 ,您 可 以 使 用 一 个 产品 数组 、 一 个 地 区 数组 和 一 个 销售 额 的 二 维 数 组 ， 每 一 维 取决 于 
对 应 的 产品 和 地 区 。 
注意 : 本 小 节 介 绍 二 维 数组 。 在 现实 中 ， 您 可 以 使 用 任何 维 数 。 因 为 这 些 数组 是 Scala 数组 ， 

所 以 和 常规 的 编程 相同 。 

这 种 情况 的 贝 叶 斯 网 络 如 图 6-3 所 示 ， 理 解 它 应 该 很 简单 。 该 网 络 有 3 个 产品 质量 































































































变量 ，2 个 地 区 渗透 率 变量 和 6 个 销售 额 变量 ， 每 个 对 应 产品 质量 和 地 区 渗透 率 的 一 个 
组 合 















































尽管 这 个 网 络 很 简单 , 但 是 可 以 在 其 中 进行 很 复杂 的 推理 , 特别 是 在 观察 到 销售 额 ， 




















试 
信 
地 
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于 得 出 产品 2 的 质量 





























6.1 使 





图 推理 产品 质量 和 地 
恩 。 为 了 了 解 这 种 工 











的 结论 。 另 一 方 

















乍 方式 ， 假 定 产品 1 在 地 


区 1 的 渗透 率 很 高 。 现 在 ， 如 果 产 品 2 在 地 区 
看 ， 如 果 产 品 1 的 销售 额 在 地 

















每 个 产品 有 一 个 
Product Quality 


(产品 质量 ) 变量 


v 
Product Quality 1 


如 果 您 记得 第 5 章 中 学 到 的 关于 贝 叶 斯 网 络 中 推理 模式 的 知识 ， 就 会 
Salesii 一 Region Penetration 1 一 Salesy 一 Product Quality 2 是 活跃 的 。 这 条 路 径 上 
到 的 中 间 变 量 是 Saleszi。 但 是 这 条 路 径 在 该 变量 上 有 





低 的 结论 ， 因 为 您 


每 个 地 区 j 有 一 个 
Region Penetration 


(地 区 渗透 率 ) j 变 量 





医 
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区 渗透 率 时 。 例如， 产品 1 的 销售 额 可 能 提供 关于 产品 2 质量 的 


区 1 中 的 销售 额 很 高 。 这 可 能 使 您 相信 











1 的 销售 额 低 ， 您 可 








台 忆 但 





用 集 





出 产品 2 质量 





区 1 中 的 销售 额 也 很 低 ， 您 就 不 太 倾 向 


额 低 的 原因 是 地 





Salesi 变 量 取决 于 
Product Qualityi 和 


二 维 销售 模型 的 贝 叶 斯 网 络 

















Or 
会 聚 箭 





Region Penetration j 


头 ， 也 就 意味 着 路 径 不 会 在 


区 1 的 渗透 率 低 。 








明白 路 径 
唯一 观察 








观察 到 该 变量 时 被 阻塞 。 同 时 ，Region Penetration 1 无 法 观察 到 ， 该 路 径 在 Region 
Penetration 1 上 没有 会 聚 箭头 ， 所 以 路 径 也 不 会 在 那里 被 阻塞 ， 综 上 所 述 ， 该 路 径 是 畅 



















































































通 的 。 
推理 时 , 您 将 同时 推 
是 概率 编程 中 典型 的 推 


























里 类 型 。 





Figaro 中 的 二 维 销售 模型 
这 种 情况 在 Figaro 中 很 容易 用 二 维 数 组 表示 。 我 将 展示 全 部 代码 ， 因 为 您 已 经 了 解 
了 各 个 成 分 。 




















您 可 以 做 出 结论 ， 在 这 个 模型 中 ， 当 观察 到 销售 额 时 ， 所 有 变量 被 连接 在 一 起 。 在 
里 所 有 产品 质量 和 所 有 地 区 的 渗透 率 。 这 类 推 





理 过 程 称 作 集体 推理 ， 
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程序 清单 6-1 ”二 维 销售 模型 
import com.cra.figaro.library.atomic.continuous.Beta 
import com.cra.figaro.language.Flip 
import com.cra.figaro.algorithm.sampling.Importance 令 行 参数 是 一 些 字符 串 , 每 
个 产品 一 个 。 每 个 字符 串 有 表 
示 每 个 地 区 的 一 个 字符 , 分 符 











object Sales { 





def main (args: Array[String]) { 串 的 长 度 应 该 相同 
val numProducts = args.length 
val numRegions = args (0) .length 
val productQuality = Array.fill (numProducts) (Beta (2,2)) Array.tabulate(numProd- 
val regionPenetration = 


Array.fill (numRegions) (Beta (2,2)) 


址 





ucts，numRegions) 创 建 
一 个 二 维 数组 ， 其 中 的 
每 个 条 目 根 据 对 应 产品 
和 地 区 索引 生成 。 每 个 
条 目 是 一 个 Flip ， 概率 
等 于 对 应 产品 的 质量 乘 
以 对 应 地 区 的 渗透 率 


I 





def makeSales (i: Int, Jj: 
Flip (productQuality (i) 


val highSales = 


Int) = 


* regionPenetration(j)) 





Array.tabulate (numProducts, numRegions) (makeSales _) 


for { 





i <- 0 until numProqucts 
j <- 0 until numRegions 
} { 


Val observation = 


销售 额 观测 值 取 自 于 命令 行 ， 
T 表示 对 应 产品 和 地 区 的 销 
售 额 很 高 。 对 应 的 证 据 在 每 个 











args (i) (j) 








highSales (i) (j) .observe (observation) 


val targets = 
val algorithm = Importance (targets:_*) 
algorithm.start () 


Thread.sleep (1000) 


highSales 元 素 中 陈述 


productQuality ++ regionPenetration 





创建 一 个 任意 时 间 重 要 性 
抽样 算法 ， 其 中 查询 目标 都 
是 产品 质量 和 地 区 渗透 率 











algorithm.stop() 元 素 

上 of 二 TE ~ 0. util numproducts } { 
ptintian("Produete 生生 ;Uy 本 

algorithm.mean (productQuality (i))) 


打印 每 个 产品 和 地 区 的 
平均 推理 产品 质量 和 地 





} 
for { j <- 0 until numRegions } { 
println("Region " + jj + " penetration: " 十 


algorithm.mean (regionPenetration(j))) 





algorithm.kill () 














现在 , 您 已 经 看 到 了 3 个 可 以 用 Scala 集合 表示 的 实用 模型 。 是 时 候 通过 学 习 Figaro 
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集合 的 使 用 ， 提 高 建 模 技术 了 。 


6.2 ”使 用 Figaro 集合 


在 前 一 个 小 节 中 ， 您 学 习 了 Scala 集合 如 何 帮助 您 创建 各 种 涉及 许多 特定 类 型 变量 
的 有 趣 模 型 。 本 节 介绍 Figaro 集合 。Figaro 集合 是 包含 许多 同类 Figaro 元 素 的 数据 结构 。 
您 可 能 认为 它 和 Scala 集合 很 类 似 一 一 为 什么 还 需要 Figaro 集合 ? 
































6.2.1 理解 Figaro 集合 的 用 途 


Figaro 集合 很 特殊 , 因为 它们 知道 自己 所 包含 的 是 元 素 , 这 些 元 素 定义 了 数值 之 上 的 概 
率 分 布 。 它 们 能 够 让 您 深入 元 素 ， 进 行 这 些 数值 上 的 运算 。 图 6-4 展示 了 其 工作 方式 。 



































Figaro 集 合 新 集合 
数值 新 值 














图 6-4 Figaro 集合 包含 元 素 ， 这 些 元 素 定义 了 数值 之 上 的 概率 分 布 。 

Figaro 集合 让 您 可 以 对 这 些 值 进行 操作 ， 用 这 些 值 产生 新 元 素 和 新 集合 

这 种 能 力 可 以 帮助 您 完成 很 多 有 益 的 工作 ， 包 括 : 

加 ”如果 c 是 Figaro 整数 元 素 集 合 , c.map((i: Inb => i* 2) 将 生成 一 个 新 的 Figaro 集 
合 。 对 于 原始 集合 中 的 每 个 元 素 e， 新 集合 中 有 一 个 等 价 于 Apply(e, (i: Int) => i 
* 2) 的 元 素 。 所 以 ， 新 集合 由 整数 元 素 组 成 。 每 个 元 素 对 应 于 这 样 的 过 程 : 从 
原始 集合 的 一 个 元 素 开 始 ， 生 成 其 值 并 乘 以 2。 例 如 ， 如 果 Figaro 集合 c 包含 
两 个 元 素 Uniform(2，3) 和 Constant(5)， 则 c.map((i: Inb => i * 2) 是 包含 元 素 
Apply(Uniform(2, 3), Gi: Inb => i * 2) 和 Apply(Constant(5), Gi: Int) => i * 2) 的 
Figaro 集合 。 在 实践 中 ， 这 意味 着 该 集合 包含 两 个 元 素 ， 其 中 一 个 是 4(2*2) 和 
6 〈3*2) 上 的 均匀 分 布 ， 另 一 个 是 常数 10 (5*2)。 

加 如果 c 是 一 个 双 精 度 元 素 的 Figaro 集合 ，c.chain((d: Double) => Flip(d)) 将 产生 
一 个 新 的 Figaro 集合 ， 对 于 原始 集合 中 的 每 个 元 素 e， 新 集合 中 有 一 个 元 素 
Chain(e, (d: Double) => Flip(d))。 第 一 个 集合 是 参数 的 集合 , 第 二 个 集合 则 是 Flip 
集合 , 每 个 Flip 依赖 于 对 应 的 参数 ,例如 , 如 果 c 包含 元 素 Beta(2, 1) 和 Betal1， 
2), 结果 集合 的 两 个 元 素 将 等 价 于 Flip(Beta(2,1)) 和 Flip(Beta(1, 2)) (记得 吗 ? 
复合 的 Flip 是 Chain 的 简写 形式 )。 


































































































































































































第 6 章 使 用 Scala 和 Figaro 集合 构建 模型 





如 果 c 是 一 个 Figaro 整数 元 素 的 集合 ，c.exists((i: Int) => i < 0) 返 回 一 个 布尔 元 
素 ， 表 示 和 集合 中 是 否 有 包含 负 值 的 元 素 。 类 似 地 ，c.count((Gi: Int) => i < 0) 返 
这 些 元 素 的 数量 。 
您 可 以 在 容器 上 应 用 任何 合并 或 者 聚合 运算 。 如 果 对 Scala 有 经 验 ， 可 能 熟悉 
了 foldLeft 等 运算 。 例 如 ， 如 果 c 是 一 个 Figaro 整数 元 素 的 集合 ， 可 以 使 用 
c.foldleft(_ + _) 创 建 一 个 元 素 ， 代 表 集 合 中 元 素 值 的 总 和 。 举 个 例子 ，Figaro 集 
合 c 有 两 个 元 素 Uniform(2,3) 和 Constant(5)。 可 能 的 总 和 有 两 个 :2+5=7 和 3 
+ 5 = 8。 因 为 第 一 个 元 素 中 2 和 3 的 概率 各 为 /2， 这 两 个 总 和 的 概率 也 各 为 
1/2。 所 以 ，c.foldleft(_+ _) 是 一 个 在 7 和 8 上 均匀 分 布 的 元 素 。 

Figaro 容器 上 的 各 种 操作 都 可 以 应 用 一 一 详 见 Scaladoc。 


















































































































































以 上 是 Figaro 集合 的 主要 用 途 。 其 他 重要 的 用 途 包 括 : 














它们 可 以 通过 使 用 可 变 大 小 集合 ， 表 现 涉 及 未 知 数量 对 象 的 情况 。 
它们 还 能 表现 涉及 无 穷 多 个 变量 甚至 变量 连续 统一 体 的 情况 。 



























































您 将 在 本 章 后 面 学 到 更 多 有 关 的 知识 。 

















6.2.2 用 Figaro 集合 重新 实现 层次 化 模型 





作为 Figaro 集合 的 第 一 个 例子 ， 您 将 回 到 从 钱 袋 中 取得 硬币 进行 掷 币 的 层次 化 模 
型 ， 看 看 如 何 用 Figaro 集合 表示 该 模型 。 这 个 模型 使 用 的 可 能 是 最 简单 的 Figaro 集合 : 
FixedSizeArray。 顾 名 思 义 ，FixedSizeArray 包含 固定 数量 的 元 素 ， 每 个 元 素 以 某 种 方式 



















































































生成 。 如 图 6-5 所 示 ，FixedSizeArray 构造 程序 有 两 个 参数 : 元 素数 量 和 一 个 元 素 生 成 



































器 。 元 素 生成 器 是 一 个 函数 ， 有 一 个 表示 数组 中 索引 的 整数 参数 ， 返 回 依赖 于 该 索引 的 
元 素 。 图 6-5 中 的 代码 创建 一 个 包含 10 个 元 素 的 Figaro 集合 ， 其 中 第 i 个 元 素 (从 0 
开始 ) 等 于 Flip(1.0/ (i+ 1))。 











元 素数 量 元 素 生 成 器 
\ 
v 
new FixedSizeArray(10, i1=> Flip(1.0/ (i+ 1))) 
A A 


数组 中 的 索引 元 素 定义 
图 6-5 ”固定 大 小 数组 结构 

















寻 为 八 


[ey 


:已 经 了 解 了 这 个 层次 化 模型 ， 我 将 以 粗 体 强调 变化 的 代码 。 为 了 说 明 Figaro 














容器 的 ) 














观察 到 。 


j 法 ， 我 稍微 扩展 了 这 个 例子 ， 允 许 命令 行 参数 包含 ? 字符 ， 表 示 掷 币 结果 没有 



































然后 ， 您 可 以 查询 特定 硬币 的 任何 一 次 投掷 结果 是 不 是 正面 。 











对 了 
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程序 清单 6-2 ”使 用 Figaro 容器 的 层次 化 模型 


impor 
impor 
impor 
impor 


impor: 


objec 


def main(args: Array[String]) { 


t 





com.cra.figaro.language. {Flip, Constant} 
com.cra.figaro.library.atomic.continuous.{Uniform, Beta} 
com.cra.figaro.library.compound.If 
com.cra.figaro.algorithm.sampling.Importance 


com.cra.figaro.library .process .FixedSizeArray 


HierarchicalContainers { 
com.cra.figaro.library.process 





且 句 今 Fi 全 省 
val numCoins = args.length 是 包含 Figaro 集合 库 的 包 


val fairProbability = Uniform(0.0, 1.0) 


val isFair = 


F 每 枚 硬 





币 ， 

















hasHeads 


(coin) 元 素 表 
示 任 一 次 掷 币 
的 结果 是 否 正 
面向 上 。tosses 


(coin) .exists(b 
=> b) 的 分 解 
参见 正文 








new FixedSizeArray (numCoins + 1, i => Flip(fairProbability)) 





tosses 变量 是 一 个 Scala 序列 ( 每 枚 硬币 一 个 )， ”在 这 个 固定 大 小 的 数组 中 ， 不 
其 中 的 每 个 条 目 是 一 个 Figaro 集合 ,集合 中 的 每 “” 管 索 引 如 何 ， 每 个 元 素 都 是 
个 元 素 是 一 个 Flip， 掷 币 出 现 正面 的 概率 是 对 应 Flip(fairProbability) 

硬币 的 偏差 


val biases = isFair.chain(if ( ) Constant (0.5) else Beta(2,5))<— 

















对 于 每 枚 硬币 ， 
val tosses = 创建 一 个 新 元 
for { coin <- 0 until numCoins } yield 素 ， 根 据 isFair 


new FixedSizeArray (args (coin) .length, i => Flip (biases (coin) ) ) (coin) 的 值 ， 是 
Constant(0.5) 或 
val hasHeads = Beta(2, 5) 

for { coin <- 0 until numCoins } yield 





—> tosses (coin) .exists(b => b) 


for { 


coin <- 0 until numCoins 


证 据 的 观察 方式 几乎 和 以 





toss <- 0 until args (coin) .length 





} 二 前 一 样 。tosses(coin) 是 一 
args (coin) (toss) match { 个 FixedSizeArray, 正如 在 


case 'H' => tosses (coin) (toss) .observe (true) | Scala 数组 中 那样 , 您 可 以 
case 'T' => tosses (coin) (toss) .observe (false) | 使 用 tosses(coin)(toss) 得 到 
case _ => () 个 元 素 











val algorithm = Importance (fairProbability, hasHeads (2)) 

algorithm.start () 

Thread.sleep (1000) 

algorithm. stop() 

println ("Probability at least one of the tosses of the third " + 
"Coin was heads = "+ 


6.2.3 


第 6 章 使 


algorithm.probability (hasHeads (2) ， 























algorithm.kill() 


} 
} 


最 需要 解释 的 代码 行 是 tosses(coin).exists(b => b)。 我 们 将 其 


如 下 代码 定义 : 


for { coin <- 0 until numCoins } yield 


new FixedSizeArray (args (coin) 


for...yield 结构 创建 一 人 

















.length, 


Scala 和 Figaro 集合 构建 模型 





true)) 














分 解 ， 首 先 ，tosses 用 





i => Flip(biases (coin))) 











个 Scala 序列 , 在 该 序列 : 





































































































, 每 枚 硬币 有 一 个 固定 大 小 的 数组 。 























































































































固定 大 小 数组 中 元 素 的 数量 等 于 硬币 投掷 次 数 ， 这 由 对 应 的 命令 行 参 数 给 出 。 每 个 元 素 
是 以 人 硬币 偏差 为 参数 的 Flip。 因 此 ，tosses(coin) 是 一 个 固定 大 小 数组 。 

exists 是 Figaro 集合 上 的 一 个 方法 ， 它 创建 一 个 元 素 ， 代 表 集 合 中 的 元 素 是 否 有 满 
足 给 定 预测 的 值 。 在 本 例 中 ， 预 测 是 b=> b， 这 是 一 个 取得 值 b 并 返 加 相同 信 的 函数 。 
因为 掷 币 的 结果 是 布 尔 变量 ， 寻 此 b 是 布尔 型 值 ， 这 一 预测 在 该 元 素 值 为 tue《〈 掷 币 结 
果 为 正面 ) 时 返回 true。 所 以 ，tosses(coin).exists(b => b) 返 回 一 个 元 素 ， 当 对 应 硬币 任 
一 次 投掷 的 结果 为 true 时 ， 该 元 素 值 为 true。 

现在 , 您 已 经 看 到 了 Figaro 集合 的 第 一 个 例子 , 下 面 进一步 探索 Scala 集合 和 Figaro 
集合 之 间 的 关系 。 





结合 使 用 Scala 和 Figaro 集合 























































































































现在 ， 您 已 经 了 解 如 何 使 用 在 元 素 值 上 定义 的 操作 ， 应 用 Figaro 集合 。 您 可 能 觉得 
疑惑 ，Scala 集合 在 Figaro 中 是 否 还 有 用 。 它 们 当然 有 用 对 为 Scala 集合 的 种 类 多 于 
Figaro 集合 ， 在 Scala 集合 上 定义 的 许多 方法 在 Figaro 集合 上 并 没有 定 只 要 您 不 需 









































要 使 用 在 值 上 定义 的 操作 ， 那 么 继续 使 用 Scala 集合 可 能 更 好 。 
Scala 和 Figaro 集合 的 相互 转换 


有 时候， 


进行 操作 的 能 力 。 幸 运 的 是 ，Scala 
Figaro 提供 的 Scala 和 Figaro 集合 相互 转换 的 一 











您 需要 同时 使 用 两 种 集合 。 








您 可 铺 





集合 








需要 结合 Scala 集合 的 灵活 性 和 在 值 
很 容易 转换 为 Figaro 集合 ， 反 之 亦 然 。 下 面 是 
些 途 径 。 









































加 ”Container 构造 程序 一 一 在 Figaro 中 , Container 是 包含 有 限 数量 元 素 的 集合 的 通 


























~、 





类 。 该 类 提供 的 Container 构造 程序 使 用 可 变数 量 的 参数 , 每 个 参数 是 同一 值 















































类 型 上 的 一 个 元 素 。 这 个 构造 程序 返回 包含 这 些 元 素 的 Figaro 集合 。 您 可 以 用 
Container(toss1, toss2, toss3) 创 建 包 含 3 次 掷 币 结果 的 Figaro 集合 。 
如 果 您 的 Scala 集合 是 某 种 序列 〈 它 实现 了 Seq 特性 ， 如 数组 或 者 列表 )， 可 以 


















































:_* 结 构 将 其 转换 为 可 变数 量 的 参数 。 所 以 ， 如 果 tosses = List(toss1，toss2， 
toss3)， 那 么 Container(tosses:_*) 和 前 一 段 提 到 的 Figaro 集合 相同 。 如 果 您 

















的 由 





A 


6.2 ”使 用 Figaro 集合 








合 是 一 个 集 (set) 而 不 是 序列 ， 可 以 




















Traversable 特性 的 Scala 集合 (包括 大 部 





表 ， 然 后 转换 为 Figaro 集合 。 

















田 ” 枚 举 容 器 中 的 元 素 如 果 您 有 一 个 Figaro Container (有 限 集合 )， 可 以 用 

















首先 使 用 
后 使 用 :_* 结 构 一 一 例如 ，Container(Set(toss 











pk 
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toList 方法 将 其 转换 为 序列 ， 然 
, toss2, toss3).toList: *)。 任 何 实现 
分 集合 ) 可 以 这 种 方式 转换 为 一 个 列 



































elements 方法 将 其 转换 为 由 元 素 组 成 的 Scala 局 | (Seq)。 轩 EK ，Container(toss1， 


toss2, toss3).elements 将 返回 一 个 包含 toss1、toss2 和 toss3 的 Seq 变量 。 然 后 ， 








您 可 以 将 这 个 Seq 转换 为 所 需 的 人 


四 ”生成 从 索引 到 元 素 的 映射 














的 映射 。 您 将 在 6.4 节 中 更 多 地 探索 这 个 概念 ， 在 该 节 中 您 将 考虑 一 个 无 穷 过 
程 ， 其 中 的 索引 集 由 实数 组 成 。 对 于 一 个 FixedSizeArray， 索 引 集 由 从 0 到 元 
素数 量 减 1 的 整数 组 成 。 对 于 Container， 索 引 集 是 有 限 的 。 因 此 ， 您 很 容易 将 























E 何 Scala 集合 





， 如 列表 或 者 集 。 
Figaro 集合 的 核心 定义 是 从 索引 集中 的 值 到 元 素 










































































Container 转换 为 从 索引 到 值 的 Scala Map。 这 可 以 通过 Container 的 toMap 方法 





实现 。 
示例 : 销售 额 预测 





J 合 使 用 Scala 和 Figaro 集合 
和 以 前 一 样 ， 您 有 一 些 产 品 ， 每 个 都 有 各 自 自 


























集合 ， 我 们 扩展 6.1.3 小 节 中 的 销售 额 示 例 。 
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质量 





个 地 区 的 渗透 率 不 同 。 您 将 观察 前 一 年 每 种 产品 在 





对 素 ， 这 些 产 
各 个 地 区 的 销售 


品 在 一 些 地 区 销售 ， 每 
和 额 ， 并 预测 来 年 每 种 



































产品 在 各 个 地 区 的 销售 额 。 您 还 将 进一步 预测 公司 支持 每 个 产品 








的 新 雇员 数 。 

















和 以 前 一 样 ， 您 从 产品 和 地 区 的 一 维 








E Scala 数组 和 销售 额 的 二 维 Scala 数组 入 手 : 


val productQuality = Array.fill (numProducts) (Beta (2,2)) 
Val regionPenetration = Array.fill (numRegions) (Beta (2,2)) 


def makeSales(i: Int, j: Int) = 


Flip(productQuality(i) * regionPenetration(j)) 


val highSalesLastYear = 


Array.tabulate (numProducts, numRegions) (makeSales _) 


val highSalesNextYear = 


Array.tabulate (numProducts, numRegions) (makeSales _) 




















这 是 所 有 产品 、 地 区 和 去 年 及 下 一 锯 


E 销 


























二线 和 每 个 地 区 销售 力量 




















售 额 的 完整 模型 ， 可 以 根据 去 年 的 销售 额 预 





/ 
测 来 年 的 销售 额 。 为 此 ，Scala 集合 已 经 足够 ， 如 果 不 需要 Figaro 集合 的 额外 能 力 ， 就 











不 应 该 使 用 它们 。 但 是 ， 您 还 希望 预测 每 种 产品 和 每 个 地 区 新 




















和 雇员 的 数量 ， 因此 需要 








Figaro 集合 。 如 下 的 代码 创建 一 个 Scala 数组 ， 每 个 产品 有 一 个 条 目 ， 每 个 条 目 是 包含 
表示 所 有 地 区 中 对 应 产品 预测 销售 额 的 元 素 的 Figaro Container: 








def getSalesByProduct (i: Int) = 


for { j <- 0 until numRegions } yield highSalesNextYear (i) (Jj 


val salesPredictionByProduct = 





) 


Array.tabulate (numProducts) (i => Container (getSalesByProduct (i):_*)) 
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现在 是 用 Figaro 集合 预测 雇员 人 数 的 时 候 了 。 首 先 ， 对 于 每 种 产品 ， 您 将 创建 一 个 
元 素 ， 表 示 产 品 在 下 一 年 中 有 较 高 销售 额 的 地 区 数量 。 这 可 以 用 如 下 代码 实现 : 




































































val numHighSales = 





for { predictions <- salesPredictionByProduct } 


yield predictions.count (b => b) 


numHighSales 是 一 个 Scala 数组 ， 每 个 产品 有 一 个 条 目 ， 每 个 条 目 是 一 个 Figaro 整 
数 元 素 。 salesPredictionByProduct 做 成 一 个 Figaro 集合 数组 的 原因 是 ， 这 样 对 于 
salesPredictionByProduct 中 的 每 个 预测 集合 ,可 以 调用 predictions.count(b => b) 获 得 代表 
您 预测 高 销售 量 的 产品 数量 的 元 素 。 使 用 其 他 方法 很 难 做 到 这 一 点 ， 而 使 用 Figaro 集合 
却 很 容易 。 

现在 ， 对 于 每 个 产品 ， 您 将 创建 一 个 代表 为 该 产品 雇佣 人 数 的 元 素 ， 该 元 素 依赖 于 
产品 的 numHighSales。 和 往常 一 样 ，Figaro 的 这 类 依赖 性 用 Chain 创建 。 我 将 展示 两 种 
等 价 的 方法 ， 一 种 使 用 Scala 集合 ， 另 一 种 使 用 Figaro 集合 。 首 先 使 用 Scala 集合 : 
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val numHiresByProduct = 
for { i <- 0 until numProqucts } 
yield Chain (numHighSales(i), (n: Int) => Poisson(n + 1)) 


上 述 代码 创建 了 一 个 Chain 元 素 组 成 的 Scala 数组 。 下 面 使 用 Figaro 集合 : 








val numHiresByProduct = 


Container (numHighSales:_*) .chain((n: Int) => Poisson(n + 1)) 





以 上 代码 创建 了 一 个 Chain 元 素 的 Figaro Container。 

模型 就 是 这 样 。 陈 述 证 据 和 运行 推理 的 代码 实际 上 和 以 前 相同 。 但 是 有 一 个 细节 
值得 一 提 。 因 为 查询 目标 是 numHiresByProduct 中 的 元 素 ， 对 于 numHiresByProduct 
是 Figaro Container 的 版 本 ， 您 需要 获得 其 元 素 并 将 其 传递 给 重要 性 抽样 算法 。 这 用 如 
下 的 代码 实现 : 

































































































































































val targets = numHiresByProduct.elements 


val algorithm = Importance (targets:_*) 


让 我 们 反思 这 个 例子 。Scala 和 Figaro 集合 都 起 着 重要 的 作用 。 一 方面 ，Scala 中 的 
多 维 数 组 很 方便 易 用 。 您 可 以 创建 一 个 有 二 维 索 引 集 的 Figaro Container, 但 是 相 比 起 来 
麻烦 得 多 。 另 一 方面 ， 用 Figaro 容器 进行 计数 聚合 运算 很 容易 ， 但 是 在 Scala 中 很 难 。 
实际 上 ， 您 可 能 不 得 不 重新 实现 Figaro 的 聚合 逻辑 ， 那 并 不 是 简单 的 工作 。 

见 在 ， 您 已 经 学 到 了 使 用 Figaro 集合 的 基础 知识 ， 让 我 们 来 研究 更 为 独特 ， 但 仍然 


实用 的 集合 类 型 
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6.3 ”建立 对 象 数量 未 知情 况 的 模型 


到 目前 为 止 , 我 们 的 Figaro 集合 都 包含 固定 数量 的 对 象 。 虽然 您 可 以 组 合 多 个 相同 
情况 下 的 Figaro 集合 ， 但 是 现在 它们 包含 的 总 对 象 数 仍然 是 相同 的 。 在 许多 情况 下 ， 对 
象 数量 是 未 知 、 可 变 的 。 对 于 这 些 情况 ，Figaro 提供 了 可 变 大 小 数组 。 我 将 首先 描述 可 
变 大 小 数组 起 作用 的 情况 ， 然 后 介绍 Figaro 的 VariableSizeArray 数据 结构 ， 最 后 提供 一 
个 可 变 大 小 数组 的 实际 示例 。 












































































































































6.3.1 开放 宇宙 中 对 象 数量 未 知 的 情况 


想象 您 打算 实现 一 个 高 速 公 路 流量 监控 系统 。 您 的 目标 是 监控 公路 上 的 车 流 ， 预 测 
何 时 出 现 交 通 拥堵 。 您 在 重要 地 点 放置 了 摄像 头 ， 为 了 实现 目标 ， 必 须 完 成 两 件 事 。 首 
先 ， 需 要 推算 每 个 地 点 经 过 的 车 辆 ， 包 括 识 别 何 时 同一 辆 车 经 过 两 个 不 同 的 摄像 头 。 其 
次 ， 您 需要 预测 未 来 到 达 公路 的 车 辆 数量 和 造成 的 交通 拥堵 现象 。 

这 两 种 任务 都 需要 就 未 知 数量 的 对 象 进 行 推理 。 当 您 推算 当前 在 高 速 公路 上 的 汽车 
时 并 不 知道 汽车 的 数量 ， 视 频 图 像 中 也 没有 为 您 提供 这 一 数字 的 精确 指示 。 有 时 候 ， 图 
像 中 可 能 合并 了 很 多 辆 车 ， 有 些 车 辆 可 能 完全 没有 被 检测 到 。 当 您 预测 未 来 的 交通 拥堵 
时 ， 当 然 也 不 知道 将 会 有 多 少 车 辆 。 

您 不 知道 对 象 数 量 的 情况 称 作 开放 宇宙 情况 〈 这 个 名 称 的 解释 参见 补充 材料 )。 开 
放 宇 宙 情 况 的 特性 由 两 个 属性 描述 。 
罩 您 不 知道 对 象 的 准确 数量 ， 如 车 辆 数量 ， 这 称 为 数量 不 确定 性 。 

加 ”您 不 确定 对 象 的 身份 。 例 如 ， 您 可 能 不 确定 在 不 同 地 点 的 两 辆 车 的 图 像 是 否 属 

于 同一 辆 车 。 这 称 为 身份 不 确定 性 。 

本 小 节 关 注 数量 不 确定 性 ， 这 种 不 确定 性 由 可 变 大 小 数组 解决 。Figaro 也 能 处 理 身 
份 不 确定 性 的 情况 ， 但 是 您 要 等 到 下 一 章 才 能 看 到 轻松 的 解决 方案 。 
开放 宇宙 建 模 

概率 编程 中 “开放 宇宙 ”一 词 的 使 用 来 自 于 Stuart Russell 和 他 的 小 组 ， 他 们 在 自己 的 概 
率 编程 语言 BLOG 中 推出 这 一 概念 ， 这 种 编程 语言 主要 设计 用 于 表示 和 推理 开放 宇宙 情况 。 该 
术语 最 早 来 源 于 罗 辑 学 ， 在 逻辑 学 中 , “封闭 世界 ”或 者 “封闭 宇宙 ”意味 着 假定 只 有 您 的 模 
型 中 明确 提 到 或 者 从 模型 中 直接 衍生 的 对 象 才 是 存在 的 。 

如 果 您 熟悉 逻辑 编程 语言 Prolog， 就 知道 Prolog 中 “否定 即 失 败 ”: 如 果 不 能 证 明 某 件 事 
是 真 的 ， 就 认定 其 为 假 。 例 如 ， 如 果 您 试图 证 明 图 像 中 存在 一 辆 绿色 的 车 ， 根 据 已 知 的 车 辆 无 
法 证 明 这 一 点 , 那么 就 认定 不 存在 这 样 的 车 辆 。 您 没有 必要 证 明 没有 其 他 未 知 的 绿色 车 辆 存在 。 
否定 即 失败 是 封闭 宇宙 推理 的 一 种 形式 。 




































































































































































































































































































































































































































































































































































































































































































































































































































































172 第 6 章 使 用 Scala 和 Figaro 集合 构建 模型 


























相反 ， 完 全 一 阶 逻辑 是 开放 宇宙 ， 为 了 证 明 图 像 中 没有 绿色 车 辆 ， 必 须 证 明 不 可 能 有 这 样 
的 车 辆 , 即便 您 对 那些 车 辆 一 无 所 知 也 是 如 此 。 开 放 宇宙 情况 的 建 模 是 概率 编程 语言 所 能 做 到 ， 
但 是 在 其 他 概率 推理 框架 中 十 分 困难 的 任务 之 一 。 

























































































6.3.2 ”可 变 大 小 数组 


Figaro 的 开放 宇宙 建 模 方法 是 使 用 可 变 大 小 数组 。 可 变 大 小 数组 有 两 个 参数 : 一 个 
取 值 为 数组 大 小 的 元 素 ， 以 及 一 个 类 似 于 固定 大 小 数组 的 元 素 生 成 器 。 图 6-6 展示 了 构 
造 可 变 大 小 数组 的 一 个 例子 。VariableSizeArray 构造 程序 的 第 一 个 参数 是 一 个 整数 元 素 ， 
代表 数组 中 的 元 素数 量 。 第 二 个 参数 是 元 素 生成 器 ， 是 从 数组 索引 到 元 素 定 义 的 函数 。 
在 图 6-6 中 ， 数 组 中 的 每 个 元 素 由 一 个 Beta 分 布 定 义 ， 所 以 它 是 一 个 双 精 度 元 素 。 

构造 一 个 可 变 大 小 数组 时 会 发 生 什么 ?从 技术 上 说 ， 可 变 大 小 数组 不 是 一 个 数组 ， 
而 是 代表 着 一 个 随机 变量 ， 这 个 变量 的 值 可 能 是 许多 数组 中 的 一 个 ， 每 个 数组 的 长 度 都 
不 同 ， 取 决 于 数值 参数 的 值 。 当 您 调用 VariableSizeArray 时 ， 将 创建 一 个 代表 这 个 随机 
变量 的 MakeArray 元 素 。 在 可 变 大 小 数组 上 的 所 有 操作 都 应 用 到 这 个 元 素 。 在 后 台 ， 
Figaro 确保 尽 可 能 高 效 地 实现 MakeArray， 以 确保 不 同 大 小 的 数组 之 间 达 到 最 大 限度 的 
数据 共享 。 特 别 是 , 较 短 的 数组 是 较 长 数组 的 前 级 , 使 用 相同 的 元 素 。 作 为 程序 员 , Figaro 
为 您 完成 这 些 工作 ， 您 无 需 为 此 担心 , 但 是 我 希望 确保 您 知道 MakeArray 是 什么 ， 因 为 
您 可 能 会 遇 到 这 种 类 型 。 











































































































































































































代表 数组 中 元 
素数 量 的 元 素 元 素 生 成 器 
y 
VariableSizeArray(Binomial(20, 0.3), 1=> Beta(1, i+ 1)) 
个 个 
数组 索引 元 素 定 义 
图 6-6 ”可 变 大 小 数组 的 结构 





6.3.3 可 变 大 小 数组 上 的 操作 


j 可 变 大 小 数组 能 做 什么 ? 几乎 所 有 用 固定 大 小 数组 所 能 做 的 都 可 以 ,但 是 两 者 之 
间 存 在 重要 的 差异 。 在 下 面 的 例子 中 ，vsa 表示 条 目 为 字符 串 元 素 的 一 个 可 变 大 小 数组 。 
下 面 是 可 变 大 小 数组 上 的 一 些 操作 。 

四 ”获得 某 个 索引 处 的 元 素 一 一 原则 上 ，vsa(5) 获 得 索引 为 5 的 元 素 (数组 中 的 第 6 
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个 元 素 )。 但 是 这 种 操作 很 危险 , 您 应 该 确定 数组 始终 有 至 少 6 个 元 素 , 才能 调 
这 个 方法 。 否 则 ， 可 能 导致 mdexOutOfRangeException 异常 。 
图 ”安全 地 获得 某 个 索引 处 的 可 选 元 素 一 一 因为 上 述 原 因 ，Figaro 提供 了 一 种 更 安 
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全 的 方 法 。 获得 某 个 索引 处 的 元 素 。vsa.get(5) 返 回 一 个 Element[Option 

[String]]。 这 是 一 个 Scala 类 型 ， 如 果 索 引 处 有 一 个 字符 串 ， 则 为 Some[String]， 
否则 为 None。vsa.get(5) 代 表 如 下 的 随机 过 程 。 

一 一 根据 数值 参数 选择 元 素数 量 。 





一 一 获得 合适 大 小 的 固定 大 小 数组 。 

如 果 数 组 有 至 少 6 个 元 素 ， 让 s 等 于 索引 5 处 元 素 的 值 。 返 回 Some(s)。 

否则 ， 返 回 None。 

可 以 看 到 ， 在 两 种 情况 下 ， 随 机 过 程 都 生成 Option[String]。 所 以 该 过 程 由 一 个 
Element[Option[String]] 表 示 。 您 可 以 不 同方 式 使 用 一 个 Element[Option[String]]， 例 
如 ， 可 以 将 其 传递 给 Apply 元 素 ， 如 果 该 参数 是 Some(s) 则 进行 某 种 有 趣 的 操 
上 如 果 为 None 则 生成 默认 值 。 

国 过 值 上 的 函数 映射 可 变 大 小 数组 一 一 这 类 似 于 固定 大 小 数组 ， 但 是 现在 
es 进入 可 变 大 小 数组 内 部 得 到 它 所 指向 的 固定 大 小 数组 ， 然 后 进入 固定 大 
小 数组 内 部 取得 值 。 例 如 ，vsa.map(_.length) 生 成 一 个 新 的 可 变 大 小 数组 ， 其 
每 个 字符 串 被 其 长 度 所 人 蔡 代 。 

四 ”通过 将 值 映射 到 元 素 的 函数 , 链接 可 变 大 小 数组 一 一 这 也 类 似 于 固定 大 小 数组 ， 
Figaro 同样 进入 可 变 大 小 数组 内 部 的 固定 大 小 数组 ， 通 过 该 函数 将 固定 大 小 数 
组 中 的 每 个 元 素 链接 起 来 。 例 如 ，vsa.map((S: String) => discrete.Uniform(s:_*)) 

创建 一 个 可 变 大 小 数组 ， 其 中 的 每 个 元 素 包含 来 自 对 应 字符 串 的 随机 字符 。 在 

这 个 例子 中 ，s:_* 将 字符 串 转换 为 字符 序列 ，discrete.Uniform (s:_*) 从 序列 中 选 

择 随机 成 员 。 

加 ” 折 又 与 聚合 一 一 为 固定 大 小 数组 提供 的 所 有 折 共 和 聚合 也 可 用 于 可 变 大 小 数 

组 。 例 如 ，vsa.count (_.length > 2) 返 回 一 个 Element[Int ， 表 示 数 组 中 长 度 大 于 

2 的 字符 串 数 量 。 您 可 以 将 此 理解 为 随机 地 根据 数值 参数 选择 一 个 固定 大 小 数 

组 ， 然 后 计算 该 数组 中 长 度 大 于 2 的 字符 串 数 量 。 同 样 ， 查 阅 Scaladoc 可 以 了 

解 定义 的 所 有 折 车 与 聚合 。 








































































































































































































































































































































































































6.3.4 示例: 预测 数量 未 知 的 新 产品 销售 额 


在 这 个 例子 中 ， 您 将 想象 自己 正在 规划 公司 明年 的 研发 (R&D ) 投资 。 研 发 投资 越 
多 ， 开 发 出 来 的 新 产品 也 就 越 多 ， 销 售 额 越 高 。 但 是 在 做 出 投资 的 时 候 ， 您 不 知道 指定 
投资 水 平 上 将 开发 多 少 新 产品 。 
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本 











， 您 使 用 可 变 大 小 数组 表示 新 产品 。 该 模型 的 定义 如 下 。 
ee 数 rNDLevel， 这 是 一 个 表示 研发 投资 水 平 的 双 精 度 型 变量 

ed 品 数 量 ， 是 由 
GeometricCNDLeveD 定 义 的 整数 元 素 。Geometric 元 素描 述 了 包含 一 让 的 过 程 。 
在 每 个 步骤 之 后 ， 该 过 程 将 终止 , 或 者 进入 下 一 步骤 。 进 入 下 一 步骤 的 概率 由 Geometric 
元 素 的 参数 提供 《本 例 中 是 TINDLevel)。 过 程 的 值 是 终止 前 的 步骤 数量 。 步 骤 数 量 的 概 
率 每 次 以 TINDLevel 为 因子 ， 以 几何 级 数 下 降 。rNDLevel 越 高 ， 过 程 继 续 的 时 间 越 长 ， 
开发 出 的 新 产品 越 多 。 
3. 您 创建 一 个 可 变 大 小 数组 productQuality， 表 示 每 个 新 产品 的 质量 。 这 个 可 变 大 
小 数组 的 数值 参数 是 numNewProducts。 元 素 生 成 器 是 从 索引 i 映射 到 Beta(1,it1) 的 函数 。 
在 6.1.1 小 节 中 , 您 已 经 学 到 Beta(1， ee 期 值 为 1/G+2， 所 以 产品 质量 倾向 于 随 
着 更 多 新 产品 的 开发 而 降低 ， 代 表 了 研发 投资 回报 的 逐渐 下 降 。 

4. 接 下 来 ， 您 将 产品 质量 转换 为 每 个 产品 销 信 额 的 预测 。 这 分 两 步 进行 。 首 先 ， 
使 用 一 个 以 产品 质量 为 中 心 的 Normal 元 素 生 成 原始 销售 量 。 但 是 Normal 元 素 可 能 取 负 
值 ， 而 销售 额 不 可 能 为 负数 ， 所 以 在 第 2 步 中 ， 您 截断 Normal 元 素 ， 为 其 设置 下 界 0。 
这 两 个 步骤 用 VariableSizeArray 的 chain 和 map 方法 完成 。 

5. 最 后 ， 通 过 在 productSales 可 变 大 小 数组 中 折 县 sum 函数 ， 获 得 总 销售 额 。 

该 模型 的 完整 代码 如 下 : 


val numNewProducts 
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= Geometric(rNDLevel) 
val productQuality = 

VariableSizeArray (numNewProducts, i => Betal(l, i + 1) 
val productSalesRaw = productQuality.chain (Normal(_, 0.5)) 
val productSales = productSalesRaw.map(_.max(0) 
val totalSales = productSales.foldLeft (0.0)(_+._) 


在 这 个 例子 中 ， 概 率 编程 仅 用 几 行 代码 就 帮助 您 实现 了 一 个 丰富 的 过 程 。 接 下 来 ， 
您 将 学 习 Figaro 集合 工作 的 基本 概念 ， 并 且 观 察 它们 是 如 何 应 用 到 无 限 集合 的 。 



































处 理 无 限 过 程 


本 节 说 明 如 何 使 用 Figaro 集合 定义 无 限 空间 。 您 的 第 一 个 问题 可 能 是 ， 在 有 限 的 内 

存 中 怎么 可 能 定义 元 素数 量 无 限 的 集合 ? 如 何在 有 限 的 时 间 内 使 用 这 样 的 集合 ? 
答案 是 , 这 个 集合 中 的 元 素 只 是 隐 仿 定义 的 。 您 永远 不 会 访问 无 穷 多 个 元 素 。 但 是 ， 
它们 在 您 需要 的 时 候 可 用 。 


警告 : 本 节 包 含 高 级 的 素材 。 您 尽 可 以 在 首次 阅读 时 跳 过 它们 ， 在 本 书 的 其 余部 分 不 需要 这 些 
素材 。 但 是 如 果 希 望 深入 Figaro 集合 ， 体 会 它们 的 能 力 ， 就 一 定 要 返回 到 本 节 。 
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Process 特征 〈trait) 是 Figaro 集合 的 通用 表现 形式 ， 可 以 是 有 限 的 ， 也 可 以 是 无 限 
的 。 下 面 的 内 容 解释 过 程 如 何 隐 含 地 表现 许多 元 素 ， 以 及 如 何 使 用 过 程 。 然 后 ， 您 将 看 
到 在 一 系列 事件 点 上 定义 的 过 程 示例 。 


















































6.4.1 Process 特征 











在 Figaro 中 ， 过 程 (process) 是 在 一 个 索引 集 上 定义 的 元 素 集合 的 隐 含 表现 形式 。 
我 所 说 的 隐 含 ， 指 的 是 给 定 任何 索引 ， 就 能 得 到 该 索引 处 的 元 素 。 数 组 当然 是 这 样 定 义 
的 ， 给 定 上 下 界 范围 内 的 任何 整数 索引 ， 就 可 以 得 到 索引 处 的 元 素 。 但 是 对 于 Figaro 过 
程 ， 索 引 可 以 是 您 喜欢 的 任何 类 型 。 所 以 Process 特征 由 两 个 类 型 参数 化 : 索引 类 型 和 
代表 过 程 中 元 素 取 值 类 型 的 值 类 型 。 

Process[Index, Value] 必 须 定 义 的 方法 是 generate。 最 简单 的 generate 取得 Index 类 型 
的 索引 ， 返 回 Element[Value]。 当 您 调用 generate 方法 时 ， 它 应 该 创建 并 返回 给 定 索引 
的 对 应 元 素 。 

使 用 过 程 时 不 应 该 直接 调用 generate。 前 面 已 经 看 到 ， 如 果 p 是 一 个 固定 大 小 数组 ， 
p(5) 可 以 得 到 索引 为 5 的 元 素 , 没有 必要 调用 generate。 实际 上 , p(5) 比 显 式 调用 generate 
更 安全 。 调 用 p(5) 将 导致 调用 generate 生成 一 个 元 素 ， 该 元 素 补 缓存， 确保 每 次 都 能 得 
到 相同 的 元 素 。 如 果 直 接 调 用 generate， 每 次 调用 都 会 得 到 相同 索引 的 不 同 元 素 ， 这 可 
能 不 是 您 想 要 的 结果 。 


注意 :在 Scala 中 , p(5) 是 p.apply(5) 的 简写 . Process 特征 有 一 个 apply 方法 , 该 方法 调用 generate 
并 缓存 结果 ， 使 您 可 以 调用 p(5) 获 得 所 需 的 元 素 。 


generate 的 另 一 种 形式 可 以 一 次 获得 许多 个 索引 处 的 元 素 。 这 种 形式 很 特殊 ， 展 现 
了 Figaro 集合 与 普通 集合 的 不 同 之 处 。 在 Figaro 过 程 中 , 不 同 索 引 的 元 素 之 间 可 能 存在 
依赖 性 。 例 如 ， 假 定 您 有 一 个 表示 某 个 地 区 不 同位 置 降水 量 的 过 程 。 很 明显 ， 表 示 邻 近 
位 置 降水 量 的 元 素 相互 依赖 。 如 果 一 次 获取 一 个 元 素 ， 就 无 法 捕捉 这 些 依赖 性 ， 但 是 如 
果 同 时 获得 所 有 感 兴趣 位 置 的 元 素 ， 就 可 以 生成 它们 之 间 的 依赖 性 。 

第 二 种 形式 的 generate 以 一 个 索引 列表 为 参数 。 它 返回 Map[Index, Element[Value]]， 
这 是 从 索引 到 元 素 的 一 个 映射 。 这 个 映射 应 该 包含 对 应 于 参数 中 各 个 索引 的 元 素 。 
generate 将 在 后 台 生 成 表示 索引 对 应 元 素 之 间 的 依赖 性 ， 但 是 没有 放 在 映射 中 。 例 如 ， 
如 果 您 有 一 个 过 程 包含 了 不 同位 置 的 降水 量 ， 则 以 一 组 位 置 调用 generate 将 生成 表示 那 
些 位 置 降水 量 的 元 素 ， 以 及 表示 那些 位 置 降水 量 之 间 依 赖 性 的 元 素 。 很 快 您 将 看 到 这 样 
的 示例 。 

Process 特征 还 需要 定义 另 一 个 方法 。Index 类 型 的 每 个 可 能 索引 并 不 都 是 有 相关 元 
素 的 有 效 索 引 。 例 如 , 在 数组 中 , 只 有 从 0 到 数组 大 小 减 1 的 整数 是 有 效 的 索引 。Process 
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特征 有 一 个 rangeCheck 方法 , 以 索引 为 参数 , 返回 表示 该 索引 是 否 在 有 效 范围 之 内 的 布 























尔 值 。 当 您 使 用 过 程 的 apply 方法 获得 元 素 时 ， 它 首先 检查 该 索引 是 否 在 有 效 范 围 内 ; 
如 果 不 在 ， 则 抛 出 IndexOutOfRangeException 异常 。 





























容器 复习 





6.2 节 指 出 ，Container 是 表示 Figaro 有 限 集 合 的 通 
Process 特征 ， 应 该 复习 一 下 Container。Container 是 提供 特定 











序列 中 的 索引 是 有 效 的 。 和 过 程 一样 
方法 。 



























































的 二 有 现在 ， 


























您 已 经 看 到 了 更 通用 的 





























限 索 引 序 列 的 过 程 。 只 有 该 











，Container 有 可 以 获得 一 个 或 者 多 个 元 素 的 generate 
























































所 有 元 素 。 这 只 有 在 集合 有 限 的 情况 






































FixedSizeArray 是 Container 的 
































为 为 元 素数 量 有 限 ， 您 可 以 在 Container 上 定义 折 有 和 聚合 。 折 苇 操 作 需 要 遍历 集合 中 的 

















下 才能 完成 。 因 此 ， 通 用 的 Process 特征 不 支持 折 释 或 者 
聚合 。 但 是 Process 特征 和 Container 一 样 支持 map 和 chain 操作 。 




















全 避 侍 榴 作为 耐候 相 


殊 。 


首先 ， 有 效 索 引 的 序 





























列 是 从 0 到 数组 大 小 减 1 的 整数 。 其 
成 单个 元 素 或 者 多 个 元 素 ， 每 个 元 素 
元 素 。 











6.4.2 示例 : 一 个 健康 时 空 过 程 








本 章 的 最 后 一 个 例子 使 用 了 表现 一 个 值 在 一 段 时 间 内 变化 的 时 空 过 程 。 该 过 程 
建立 一 位 患者 在 一 段 时 间 内 健康 状况 的 模型 

















次 ，FixedSizeArray 的 元 素 被 假定 为 相互 独立 。 不 管 生 



































都 使 用 元 素 生 成 器 生成 ， 不 生成 任 个 























编码 依赖 性 的 附加 




















。 建 立时 空 过 程 模型 有 两 种 方法 ， 一 是 








建立 固定 间隔 的 离散 时 间 点 (如 每 分 钟 )， 并 定义 一 个 随机 变量 表现 每 个 离散 时 间 点 
患者 的 健康 状况 。 第 二 种 是 将 时 间 视 为 连续 量 ， 在 每 个 时 间 点 定义 一 个 健康 变量 。 
































这 使 您 可 以 访问 精确 时 间 点 的 健康 状况 变量 。 我 将 采 月 














的 无 限 过 程 。 









































第 二 种 方法 ， 以 阐述 Figaro 











您 将 定义 一 个 HealthProcess 对 象 ， 这 是 一 个 Process 对 象 ， 其 索引 是 表示 时 间 点 的 


双 精 度 值 , 元 素 为 表示 每 个 时 间 点 患者 是 否 健康 的 布尔 元 素 。 HealthProcess 的 声明 如 下 : 





object HealthProcess extends Process[Double, Boolean] 


您 需要 实现 3 个 方法 : (1) 生成 

















间 点 的 元 素 及 其 依赖 性 的 generate 及 ; (3) rangeCheck。 

















它 最 简单 。 假 设 这 一 过 程 有 




















我 们 从 rangeCheck 开始 ， 因 为 











一 时 间 点 元 素 的 generate 版 本 ; (2) 生成 多 个 时 





个 


F 始 时 间 ， 定 为 时 间 


0。 任 何 0 或 者 更 大 的 时 间 都 是 有 效 的 。 所 以 ，rangeCheck 定义 如 下 : 


def rangeCheck (time: Double) = time >= 0 
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接 下 来 ， 我 们 实现 产生 单一 时 间 点 患者 健康 状况 的 generate 方法 。 当 您 孤立 看 待 单 
一 时 间 点 时 ， 健 康 变量 是 一 个 简单 的 Flip。 但 是 假定 您 不 知道 Flip 的 概率 ， 和 希望 通过 学 
习 得 到 。 您 可 以 引入 一 个 参数 healthyPrior 代表 这 个 概率 。healthyPrior 和 单元 素 generate 
定义 如 下 : 


val healthyPrior = Uniform((0.05 to 0.95 by 0.1):_*) 
def generate (time: Double): Element [Boolean] = Flip (healthyPrior) 


对 于 healthyPrior， 使 用 了 一 个 从 0.05,0.15,.….,0.95 中 选择 的 离散 Uniform 元 素 。 
现在 到 了 最 有 趣 的 部 分 了 。 您 将 实现 可 以 产生 一 组 时 间 点 的 元 素 及 其 相互 依赖 性 上 
generate 函数 。 如 何 建立 时 间 点 间 依 赖 性 的 模型 ? 自然 的 模型 之 一 是 邻近 的 时 间 点 可 
有 相同 的 健康 值 ， 其 可 能 性 取决 于 时 间 点 之 间 的 距离 。 您 假定 下 一 个 时 间 点 的 影响 随 站 
才 间 点 距离 增 大 而 以 指数 方式 下 降 。 您 将 使 用 参数 healthChangeRate 表示 健康 状况 随 
间 变 化 的 速度 ， 并 从 数据 中 学 习 这 个 参数 。 

这 样 ， 您 将 创建 两 组 元 素 。 第 一 组 是 对 应 时 间 点 的 元 素 ， 用 单 时 间 点 generate 方法 
创建 。 第 二 组 元 素 编码 每 对 连续 时 间 点 之 间 的 依赖 性 。 您 遍历 排序 的 时 间 点 序列 ， 对 每 
一 对 时 间 点 创建 一 个 元 素 , 编码 连续 时 间 点 健康 状况 相同 的 概率 高 于 健康 状况 不 同 的 概 
率 这 一 事实 。 这 一 限定 的 强度 将 取决 于 时 间 点 之 间 的 距离 , 并 由 healthChangeRate 调节 : 
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上 全 
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也 量 




























































































生成 从 时 间 索 引 到 健 


排序 时 间 ， 使 我 们 可 以 始终 康 状况 元 素 的 映射 


假定 它们 按照 顺序 排列 


def generate (times: List[Double]): MaplDouble, Element[Boolean]] = { 
一 val sortedTimes = times.sorted 


val healthy = sortedTimes.map (time => (time, generate (time))).toMap 


def makePairs (remaining: List[Double]) { 
| if (remaining.length >= 2) { 











val timel :: time2 :: rest = remaining 

按照 顺序 val probChange = 

遍 历 各 个 Apply (healthChangeRate, 

时 间 点 ， (d: Double) => 1 - math.exp(- (time2 - timel) / qd)) 创建 编码 连续 
处 理 每 对 val equalHealth = healthy (timel) === healthy (time2) 时 间 点 健康 状 
连续 的 时 val healthStatusCheckeL = 况 之 间 依 赖 性 
间 占 If (equalHealth, Constant (true), Flip(probChange)) 的 元 素 

和 healthStatusChecker.observe (true) > 如 系 





二 makePairs(time2 :: rest) 
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makePairs (SortedqTimes) 
healthy 
} 

















下 面 介绍 如 何 创建 编码 连续 时 间 点 健康 状况 之 间 依 赖 性 的 元 素 。 您 将 建立 一 个 无 癌 
依赖 性 模型 。 回 忆 第 5 章 的 内 容 ，Figaro 提供 了 两 种 编码 无 向 依赖 性 的 方法 。 使 用 约束 
的 方法 较为 简单 ， 但 是 不 能 从 描述 依赖 性 特征 的 参数 中 学 习 ， 而 您 希望 学 习 
healthChangeRate， 所 以 ， 您 将 使 用 男 一 种 方法 ， 创 建 一 个 布尔 元 素 ， 该 元 素 为 true 的 
概率 取决 于 两 个 健康 状态 ， 并 观察 该 元 素 是 否 取 值 ttue。 下 面 是 您 的 输入 : 

国 ”healthy(time1) 第 一 个 时 间 点 的 健康 状况 。 

加 healthy(time2) 第 二 个 时 间 点 的 健康 状况 。 

国 ”healthChangeRate 一 一 健康 状况 改变 的 速度 。 

上 述 代 码 创建 一 个 名 为 healthStatusChecker 的 元 素 ， 您 将 观察 它 是 否 为 tue。 如 果 
healthy(timel) 和 healthy(time2) 相 等 ，healthStatusChecker 绝对 为 true。 这 等 于 说 : 当 
healthy(timel) 和 ”healthy(time2) 相等 时 ， 约 束 值 为 1。 如 果 healthy(timel) 和 
healthy(time2) 不 相等 ，healthStatusChecker 为 true 的 概率 取决 于 time2 和 timel 之 间 的 距 
离 。 直 观 地 说 ，time2 和 timel 间 的 距离 越 大 ， 健 康 状 况 越 可 能 改变 。 根 据 probChange 
的 定义 ， 健 康 状况 不 变 的 概率 按照 time2 - timel 除 以 healthChangeRate 值 的 结果 以 指数 
方式 下 降 。 所 以 ， 时 间 差 异 越 大 ， 健 康 状况 改变 的 概率 越 接 近 于 1。 
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6.4.3 ”使 用 过 程 


过 程 的 定义 就 是 如 此 。 现 在 该 使 用 它 了 。 为 此 ， 您 将 假设 得 到 了 包含 一 些 时 间 点 健 
康 状 况 的 数据 。 您 希望 查询 其 他 时 间 点 的 健康 状况 。 您 还 希望 查询 根据 数据 学 习 到 的 
healthyPrior 和 healthChangeRate。 

关键 步骤 是 一 次 性 生成 感 兴 趣 的 所 有 时 间 点 的 元 素 ， 包 括 数据 和 查询 中 的 时 间 点 。 
那样 ， 将 创建 所 有 必要 的 依赖 性 。 如 果 单 独 为 数据 和 查询 生成 元 素 ， 就 无 法 得 到 它们 之 
间 的 依赖 性 ， 无 法 使 用 数据 预测 查询 时 的 健康 状况 。 

这 个 示例 使 用 变量 消除 法 进行 推理 。 变 量 消除 法 在 这 种 模型 中 十 分 高 效 ， 是 一 种 精 
确 推理 算法 ， 所 以 是 最 佳 的 选择 。 但 是 Figaro 的 变量 消除 算法 只 在 变量 选择 数量 有 限 的 
情况 下 有 效 。 这 就 是 healthyPrior 和 healthChangeRate 的 模型 使 用 离散 、 有 限 的 选择 集 的 
原因 。 下 面 是 生成 必要 元 素 、 陈 述 证 据 、 运 行 推理 和 得 到 查询 答案 的 代码 : 
val data = Map(0.1 -> true, 0.25 -> true, 0.3 -> false, 


0.31 -> false, 0.34 -> false, 0.36 -> false, 
Qst = tauer Oy3 -> truer U5 ~» TUBY 




















































































































































































































































































































ee 





























时 间 点 和 观察 到 的 
健康 状况 映射 数据 
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Val queries = List (0.35, 0.37, 0.45, 0.6) 为 所 有 数据 和 查询 
val targets = queries ::: data.keys.toList 点 生成 元 素 
val healthy = generate (targets) 


for { (time, value) <- data } { 


陈述 证 据 ，generate 返回 的 healthy 
是 从 时 间 点 到 元 素 的 映射 





healthy (time) .observe (value) 





val queryElements = queries.map (healthy(_)) 在 目标 元 素 上 运 
val queryTargets = healthyPrior :: healthChangeRate :: queryElements 行 推理 。 您 仍然 使 
val algorithm = VariableElimination (queryTargets:_*) 用 healthy 映射 得 
algorithm.start () 到 相关 的 元 素 


for { query <- queries } { 
println("Probability the patient is healthy at time " + query + "= "+ 
algorithm.probability (healthy (query), true)) 
} 
printin ("Expected prior probability of healthy = " 十 
algorithm.mean (healthyPrior)) 
printin ("Expected health change rate = "+ 
algorithm.mean (healthChangeRate)) 
algorithm.kill () 








这 个 例子 比 本 章 前 面 的 例子 更 高 级 。FixedSizeArray 负责 rangeCheck 和 两 个 
generate 版 本 的 所 有 定义 工作 。 但 是 ， 如 果 您 需要 使 用 自 定义 过 程 或 者 容器 ， 现 在 就 已 经 
知道 怎么 做 了 。 

本 章 的 内 容 就 是 这 些 ， 您 从 相对 简单 但 很 实用 的 设计 模式 开始 ， 最 终 转 向 更 强大 、 
影响 更 深远 的 概念 。 在 下 一 章 中 ， 您 将 学 习 如 何 使 用 Figaro 创建 面向 对 象 的 概率 模型 ， 
进一步 增强 创建 实用 模型 的 能 






















































































6.5 小 结 


量 。 和 常规 编程 一 样 ， 集 合 可 以 组 织 许 多 对 象 ， 使 用 相同 代码 操作 所 有 对 象 。 

国 。Scala 集合 为 Figaro 元 素 提供 实用 、 强 大 的 组 织 结构 ， 使 您 可 以 创建 层次 化 或 
者 多 维 依赖 性 模型 。 

加 ”Figaro 集合 提供 组 织 元 素 的 附加 功能 ， 同 时 为 您 提供 进入 元 素 内 部 操纵 其 值 ， 
实现 折 营 和 量化 操作 的 能 

国 此外，Figaro 集合 可 以 建立 对 象 数 量 未 知 的 开放 宇宙 模型 。 

加 ”Figaro 过 程 可 以 在 无 限 索 引 集 ( 如 时 间或 者 空间 〉 上 建立 集合 模型 。 
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第 6 章 使 用 Scala 和 Figaro 集合 构建 模型 


练习 


在 www.manning.com/books/practical-probabilistic-programming 上 可 以 找到 部 分 练习 
的 解答 。 
1. 在 您 所 在 的 城市 里 有 3 所 小 学 。 每 所 学 校 都 有 一 年 级 到 六 年 级 的 不 同班 级 。 
个 班级 有 30 名 学 生 。 每 个 学 生 参 加 数学 考试 。 每 次 考试 的 成 绩 取决 于 学 生 的 能 力 和 教 
师 的 技能 。 编 写 一 个 概率 程序 以 表示 这 种 情况 ， 从 考试 结果 推断 教师 的 技能 。 用 Scala 
集合 编写 这 个 程序 。 
2. 您 打算 带 家 人 前 往 一 个 游乐 园 。 游 乐园 中 有 7 个 设施 ， 这 些 设施 要 么 刺激 ， 要 
么 温和 。 它 们 有 一 个 质量 属性 ， 可 能 为 高 、 中 或 低 。 设 施 是 刺激 还 是 温和 是 可 以 观察 到 
的 ， 但 是 质量 无 法 观测 。 您 有 3 个 孩子 ， 年 纪 为 16、11 和 7 岁 。 孩 子 喜欢 游乐 设施 的 
程度 取决 于 年 龄 、 设 施 质 量 以 及 是 否 刺激 ;大 孩子 更 偏向 于 刺激 的 游戏 ， 所 有 孩子 都 偏 
爱 较 高 质量 的 设施 ,16 岁 的 孩子 曾经 到 过 这 个 游乐 园 , 已 经 告诉 您 他 所 喜欢 的 游乐 设施 。 
使 用 Scala 集合 编写 程序 ， 预 测 11 岁 和 7 岁 的 孩子 是 否 喜欢 各 种 设施 。 

3. 在 高 尔 夫 球赛 中 ， 每 个 洞 都 有 一 个 标准 杆 数 ( par )， 这 是 将 球 打 入 洞 中 所 需 的 
目标 杆 数 。 标 准 杆 数 通常 为 3、4 或 者 5。 假 定 一 位 高 尔 夫 球 手 的 技能 水 平 * 决定 了 将 球 
打 入 洞 中 所 需 的 杆 数 。 技 能 水 平 * 是 一 个 0 一 8/13 均匀 分 布 的 实数 。 给 定 杆 数 的 具体 概 
率 由 下 表 定 义 。 







































































































































































































































































































































































par-2 par-1 par par+l par+2 





4 | 13 ] 1 | 13 ] 
Ss/8 s/2 8 一 X| 1 一 9 —x|1——s 
5 8 5 8 














创建 一 个 数据 结构 表示 一 个 高 尔 夫 球场 ， 球 场 有 18 个 标准 杆 数 各 不 相同 的 洞 。 编 
写 Figaro 程序 表示 选手 打 一 场 高 尔 夫 。 

a) 使 用 该 程序 预测 在 技能 水 平 未 知 的 情况 下 ， 选 手 的 成 绩 好 于 80 杆 的 概率 。 

b) 在 技能 水 平 至 少 为 0.3 的 情况 下 ， 使 用 程序 回答 同一 个 查询 。 

c) 在 给 定 总 成 绩 为 80 的 情况 下 ， 用 该 程序 推算 选手 技能 水 平 至 少 为 0.3 的 概率 。 

4. 在 “扫雷 ”游戏 中 ， 您 必须 找 出 一 个 网 格 中 的 地 雷 。 网 格 中 的 每 个 方块 可 能 处 
于 如 下 4 种 状态 之 一 : (1) 已 知 有 雷 ; (2) 已 知 安全 ; (3) 未 知 有 雷 ; (4) 未 知 安全 。 
每 个 已 知 安全 的 方块 各 包含 一 个 数字 ， 指 明 水 平 、 垂 直 或 者 对 角 相 邻 方 块 中 地 雷 〈 已 知 
或 未 知 ) 的 个 数 。 编 写 一 个 概率 程序 ， 取 得 一 个 扫雷 网 格 ， 预 测 每 个 未 知 方块 中 有 一 个 
地 雷 的 概率 。 
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5. 您 拥有 一 家 糖果 店 ， 试 图 预测 某 一 天 中 售 出 的 糖果 数量 。 假 定 在 某 一 天 内 进 店 

的 儿童 人 数 为 Binomial(100, 0.1)。 每 个 孩子 购买 糖果 的 概率 为 0.5, 如 果 孩 子 购买 糖果 ， 
数量 将 是 1 一 10 的 均匀 分 布 。 使 用 可 变 大 小 数组 预测 某 一 天 内 销售 的 糖果 总 数 。 
6. 同样 ， 您 拥有 一 家 糖果 店 ， 但 是 现在 孩子 们 一 起 进入 商店 ， 他 们 的 购买 决策 相 
互 影 响 。 确 切 地 说 ， 如 果 一 个 孩子 购买 了 糖果 ， 男 一 个 孩子 就 更 有 可 能 也 购买 糖果 。 每 
个 孩子 购买 的 糖果 数量 不 变 。 假 定 某 一 天 进 店 的 孩子 群体 数量 为 Binomial(40，0.1)， 每 
个 群体 中 孩子 的 数量 是 1 一 5 的 均匀 分 布 。 创 建 一 个 Figaro 过 程 捕捉 这 种 情况 的 逻辑 ， 
并 用 它 预 测 菜 一 天 的 总 销售 数量 。 
























































































































































































































































第 7 划 面 回 对 象 概率 建 模 





本 章 介绍 如 下 内 容 : 
国 ”使 用 面向 对 象 ( OO ) 编程 技术 组 织 复 杂 的 概率 模型 
加 ”结合 OO 技术 和 关系 数据 库 概念 ， 使 用 对 象 和 对 象 


间 关 系 创 建 灵活 的 模型 
下 ”用 于 OO 建 模 的 Figaro 结构 , 包括 元 素 集 合 和 引用 
加 ”使 用 Figaro 结构 表示 对 象 类 型 和 关系 的 不 确定 性 

















在 前 一 章 ， 您 学 习 了 如 何 使 用 集合 构造 概率 程序 。 本 章 继续 这 一 主题 ， 使 用 常见 编 
程 语言 结构 构造 概率 程序 。 本 章 的 主题 是 使 用 面向 对 象 编 程 技术 表示 概率 模型 。 面 向 对 
象 是 一 种 强大 的 编程 技术 ， 您 将 会 学 到 ， 它 特别 适合 于 概率 建 模 ， 因 为 以 某 种 情况 下 的 
对 象 及 对 象 之 间 的 关系 描述 这 种 情况 很 自然 。Scala 是 适合 作为 概率 编程 基础 的 编程 语 
言 ， 因 为 它 既 是 函数 式 语 言 ， 又 是 面向 对 象 语 言 。 这 是 Scala 被 选 为 Figaro 宿主 语言 的 
主要 原因 。 
本 章 从 基本 的 面向 对 象 概念 入 手 ， 因 为 它们 适用 于 概率 编程 。 您 将 看 到 类 、 实 例 、 
子 类 和 继承 的 使 用 方法 ， 以 及 将 对 象 作为 构件 ， 结 合 这 些 概 念 编程 的 方法 。7.2 节 介 绍 
关系 概率 模型 ， 在 这 种 模型 中 对 象 之 间 的 关系 成 为 核心 。 在 开始 使 用 关系 之 后 ， 考 虑 
关系 未 知 的 情况 就 很 自然 了 。 这 称 为 关系 不 确定 性 ， 是 7.3 节 的 主题 。 您 将 学 习 实现 
关系 不 确定 性 表现 和 推理 的 Figaro 功能 。 除 了 关系 不 确定 性 之 外 ， 您 还 将 学 习 如 何 使 


用 这 些 功 能 建立 类 型 不 确定 性 的 模型 ， 在 这 种 情况 下 ， 您 不 能 确定 某 个 对 象 的 类 型 。 


























































































































































































































































































































7.1 


7.1 








本 章 假定 您 熟悉 了 前 面 几 章 
知识 以 及 第 5 章 中 使 用 贝 叶 斯 网 


























络 和 马尔 科 夫 网 络 建立 依赖 性 模 





使 用 面向 对 象 概率 模型 
中 的 概念 ， 特别 是 ,您 应 该 熟悉 第 2 章 中 的 Figaro 基础 





型 


2 





的 知识 。 
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此 外 ， 您 应 

















该 熟悉 Java 或 者 Scala 等 语言 





的 面向 对 象 编程 功能 。 








一 般 来 说 ， 我 不 使 








Scala 特有 








的 功能 (如 特征 ), 但 是 将 使 用 Scala 对 象 ， 所 以 如 果 您 熟悉 Java， 应 该 能 够 理解 本 章 中 














的 酝 


使 用 面向 对 象 概率 模型 


向 对 象 编程 结构 。 

















您 可 
处 。 在 本 章 的 过 程 
为 了 了 解 使 用 














， 我 将 强调 















































这 种 

















球员 和 
面向 对 象 编程 有 两 个 主要 好 处 









































能 很 熟悉 OO 编程 和 它 所 带 来 的 好 处 ， 但 是 我 希望 
这 些 好 处 如 何 应 ) 
OO 技术 进行 概率 编程 的 动机 ， 
下 , 我 们 将 建立 足球 角球 的 模型 ， 考虑 攻 方 和 
情况 使 用 00 方法 很 自然 。 球 员 是 对 象 
移动 或 者 足球 等 动作 。 不 同类 的 球员 《〈 如 中 锋 和 和 守门 员 ) 可 以 用 
他 球员 以 及 球 互动 ， 球 也 是 对 象 。 环 境 也 可 以 作为 对 象 ， 和 









































到 概率 编程 。 
我 们 回 
守 方 的 技能 、 














环境 条 件 (风力 

















\ 体 介绍 我 认为 最 重要 的 好 





到 第 1 章 的 角球 示例 。 提 醒 一 





等 ) 等 信息 。 


属于 某 个 球 队 ， 后 者 也 是 对 象 。 球 员 完 成 




















图 ”为 复杂 程序 提供 结构 


对 象 是 捕捉 





组 数据 和 行为 的 内 聚 单位 。 














Player 类 的 子 类 建 模 。 
球 以 及 球员 互动 。 


对 象 为 这 些 

















数据 和 行为 提供 




















内 部 结构 是 封装 的 ， 不 为 程序 








pa 








余部 分 所 见 。 





这 使 得 程序 员 可 以 模块 化 的 方式 修改 对 象 的 内 部 结构 ， 而 不 会 影响 程序 的 其 余 


部 分 。 例 如 ， 完 整 的 守门 员 模 型 可 能 
救 技术 ) 可 
先 ， 相 同 的 类 代码 以 及 内 部 结构 可 








只 有 少数 几 个 (如 
实现 代码 重用 一 一 首 











相同 的 球员 模型 可 用 于 同一 个 球 队 的 许多 球员 。] 














会 已 下 人 


用 E 京 1 余音 


小 部 分 。 


以 作 


向 到 模型 的 其 




















所 有 类 实例 重用 。 


含 许 多 变量 和 细致 的 依赖 性 ， 但 是 其 中 


















































同 特征 的 重用 。 例 妇 











H,，! 











锋 下 











有 k 享 许多 变量 和 依赖 性 。 


守门 员 
































这 些 优势 自然 适用 于 概率 乡 








剖 程 








。 但 是 面向 对 象 甚至 更 






































人 
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程 





， 我 们 构建 真实 世界 的 模型 ， 
本 节 首 先 
































然后 介绍 两 个 基于 第 5 章 中 打印 机 示例 的 例子 。 第 
向 对 象 模型 。 第 二 个 例子 说 明 如 何 重用 代码 ， 建 立 同 一 网 络 中 不 同 种 类 打 








络 转换 成 画 
机 的 模型 。 


理解 面向 对 象 建 模 的 元 素 























讨论 类 、 实 例 、 属 性 和 子 类 等 基本 和 


世界 可 以 自然 地 用 对 象 描述 。 
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A 
FA 





头 





次 ， 继 承 性 实现 了 不 同类 共 


加 适合 于 概率 模型 。 在 概率 编 


以 及 它们 在 概率 建 模 中 的 应 用 。 









































在 面向 对 象 程序 中 ,您 有 描述 
具体 数据 和 行为 的 实例 化 。 例 如 






































的 特定 打印 机 。 打 印 机 类 描述 了 打印 机 的 一 般 行 为 ， 而 打印 机 实例 有 特定 了 




















， 您 可 能 有 一 个 通用 的 打印 机 类 ， 











个 例子 说 明 如 何 将 扁平 的 贝 叶 


般 数 据 和 行为 的 类 和 那些 类 的 实例 ， 这 
以 及 作为 该 类 实例 











斯 网 
印 








久 些 实例 包含 























FF 该 打印 机 的 
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第 7 章 面向 对 象 概率 建 模 
数据 和 行为 ， 这 些 行为 从 类 的 行为 衍生 而 来 。 
注意 : 对 象 一 词 有 时 候 指 的 是 类 ， 有 时 指 的 是 实例 。Scala 也 有 object 关键 字 ， 用 于 定义 单 态 


类 (只 有 唯一 特殊 实例 的 类 ) 的 实例 。 因 此 ， 我 从 现在 起 避免 使 用 对 象 而 使 用 含义 更 清 
晰 的 类 和 实例 。 


对 于 概率 程序 来 说 ， 这 意味 着 : 
加 ”概率 类 模型 定义 生成 随机 变量 值 的 通用 过 程 。 例 如 ， 打 印 机 类 模型 描述 生成 电 

源 是 否 开 启 、 是 否 卡 纸 、 打 印 机 总 体 状态 等 的 通用 过 程 。 
加 ”实例 是 通用 类 模型 的 特定 实例 化 ， 描 述 生成 属于 这 个 具体 实例 的 随机 变量 值 的 

一 个 过 程 。 例 如 ， 打 印 机 实例 使 用 其 类 模型 描述 生成 这 台 特 定 打印 机 电源 是 否 
开启 、 是 否 卡 纸 和 打印 机 总 体 状 态 值 的 过 程 。 
要 在 Figaro 中 表示 概率 类 和 实例 ， 可 以 使 用 常规 的 Scala 类 及 实例 。 您 可 以 给 出 值 
为 元 素 的 Scala 类 属性 。 例 如 ， 在 表示 打印 机 的 Scala 类 中 ， 可 以 有 属性 powerButtonOn、 
paperFlow 和 state。 每 个 属性 都 定义 为 一 个 元 素 。 在 Scala 中 ， 类 属性 代表 通用 定义 。 类 
的 每 个 实例 都 有 由 这 个 元 素 定义 的 特殊 属性 。 例 如 ， 如 果 您 有 一 个 名 为 myPrinter 的 打印 
机 实例 ， 它 就 有 属性 myPrinter.powerButtonOn、myPrinter.paperFlow 和 myPrinter.state。 
这 些 属性 是 定义 为 Figaro 元 素 的 常规 Scala 变量 。 所 以 , 您 在 myPrinter 的 属性 值 上 定义 
了 一 个 生成 过 程 。 下 面 的 代码 片段 展示 了 包含 这 些 属性 的 Printer 类 定义 ， 以 及 名 为 
myPrinter 的 特定 实例 定义 。myPrinter.powerButtonOn 是 一 个 Flip(0.95) 元 素 ，myPrinter. 


paperFlow 是 一 个 Select 元 素 ， 等 等 。 

























































































































































































































































































class Printer { 
val PowerButtonon = Flip(0.95) 
Val paperFlow = Select (0.6 -> 'smooth, 0.2 -> 'uneven, 0.2 -> 'jammed) 
val state = // etc. 

} 


val myPrinter = new Printer 


男 一 种 表达 方式 是 ,一 组 概率 类 定义 提供 了 随机 过 程 的 通用 定义 ， 这 些 随机 过 程 可 
以 在 不 同 实例 上 重用 多 次 。 这 和 常规 的 OO 编程 类 似 , 类 模型 可 以 用 于 许多 不 同 的 实例 。 
如 果 您 有 打印 机 、 网 络 和 软件 类 ， 可 以 重用 不 同 的 打印 机 、 网 络 和 软件 实例 。 这 些 实例 
可 以 采用 您 所 需要 的 任何 配置 。 例 如 ， 可 以 有 用 不 同 软件 工作 的 不 同 打印 机 。 甚 至 在 同 
一 个 程序 中 使 用 同一 个 类 的 不 同 实 例 ， 例 如 一 个 网 络 上 的 多 台 打 印 机 。 
羽 为 Scala 支持 子 类 和 继承 ， 您 也 可 以 对 Figaro 模型 使 用 子 类 和 继承 。 这 使 您 得 以 
j 多 个 类 定义 的 不 同 部 分 。 例 如 ， 您 可 以 有 不 同 种 类 的 打印 机 ， 如 激光 打印 机 和 喷 墨 
打印 机 。 不 同类 的 打印 机 可 以 共享 相同 的 行为 ， 如 卡 纸 的 倾向 ， 同 时 也 可 以 有 不 同 的 行 
为 ， 如 激光 打印 机 特有 的 墨 粉 耗 尺 现象。 熟悉 的 子 类 、 继 承 和 重 载 概念 使 您 能 够 轻松 地 
表现 此 类 情况 。 
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7.1.2 ” 重 温 打印 机 模型 


上 面 已 经 介绍 了 一 些 基本 概念 ， 现 在 我 们 来 看 看 它们 在 实际 中 的 应 用 。 您 将 使 用 第 
5 章 中 的 打印 机 程序 。 图 7-1 重 现 了 这 一 问题 的 贝 叶 斯 网 络 。 


CT Paper Flow CC Toner Level 了 Printer Power Button On 





























Paper Jam Indicator On Toner Low Indicator On 





Print Result Summary 


图 7-1 从 第 5 章 重 现 的 打印 机 贝 叶 斯 网 络 。 注 意 ， 这 个 网 络 是 “扁平 ”的 ， 所 有 变量 都 处 于 同一 级 别 ， 
没有 任何 结构 。 直 观 地 说 ， 网 络 的 上 半 部 分 对 应 于 打印 机 的 属性 ， 但 是 这 个 结构 在 网 络 中 并 不 明显 
































贝 叶 斯 网 络 描述 了 因为 打印 机 问题 而 致电 服务 台 的 用 户 。 该 用 户 描述 了 打印 结果 的 
摘要 ， 这 是 已 打印 页 面 数量 、 打 印 速度 是 不 是 很 快 以 及 打印 质量 的 函数 ， 而 这 些 因素 又 
取决 于 用 户 命令 和 计算 机 网 络 、 软 件 及 打印 机 的 状态 。 然 后 ， 贝 叶 斯 网 络 进入 打印 机 的 
更 多 细节 ， 建 立 了 电源 按钮 是 否 开启 、 进 纸 状 态 和 墨 粉 水 平 的 模型 。 

这 个 模型 是 面向 对 象 技术 的 自然 候选 。 首 先 ， 您 有 打印 机 。 网 络 中 的 6 个 变量 与 打 
印 机 相关 ， 唯 一 与 模型 中 其 余部 分 相关 的 变量 是 Printer State《〈 打 印 机 状态 )。 如 果 使 用 
一 个 打印 机 类 ， 其 余 变 量 都 被 封装 在 类 中 。 同 样 ， 虽 然 在 这 个 特殊 网 络 中 用 户 、 网 络 和 
软件 只 有 一 个 节点 ， 但 是 这 些 节点 可 能 更 复杂 ， 包 含 菜 种 封装 的 内 部 状态 。 最 后 ， 您 可 
以 有 一 个 表现 总 体 打 印 体验 的 对 象 。 

您 可 以 集中 所 有 相关 的 变量 , 将 打印 机 模型 转换 为 面向 对 象 的 贝 叶 斯 网 络 , 如 图 7-2 
所 示 。 在 这 个 网 络 中 ， 附 属于 打印 机 的 6 个 变量 被 集合 为 Printer 类 。 同 样 ， 与 打印 体验 
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相关 的 4 个 节点 被 放 入 Print Experience 类 。 我 已 经 选择 将 用 户 、 网 络 和 软件 放 入 各 自 的 
类 中 。 尽 管 在 这 个 特殊 模型 中 每 个 类 都 只 有 一 个 变量 ， 但 是 将 这 些 节点 放 入 单独 的 类 
使 您 能 够 在 稍 后 修改 类 ， 添 加 更 多 结构 ， 而 不 会 破坏 总 体 模型 。 这 是 使 用 向 对 象 风格 
的 常见 理由 。 


















































Printer 


Paper Flow CC Toner Level 了 Printer Power Button On | 


Paper Jam Indicator On Toner Low Indicator On Cstate ) 


User Network 
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Print Experience 


Number of i 一 ~ | Quality 
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Print Result CT PrintResult Summay 








图 7-2 打印 机 贝 叶 斯 网 络 的 面向 对 象 表现 形式 。 带 有 阴影 的 方 框 组 合 了 关联 的 变量 。 方 框 顶部 的 标签 
类 名 称 。 注 意 这 个 模型 是 如 何 提供 图 7-1 的 贝 叶 斯 网 络 中 不 明显 的 结构 的 


以 面向 对 象 方式 表现 打印 机 问题 的 代码 将 在 下 面 介绍 。 代 码 很 简单 ， pr 
用 过 面向 对 象 编程 的 任何 人 来 说 都 应 该 很 熟悉 。 对 概率 编程 来 说 ， 没 有 太 多 新 内 容 。 
段 代码 展示 了 一 个 三 步 的 过 程 。 

1. 定义 类 模型 。 

2. 创建 类 实例 。 

3. 用 这 些 实例 进行 推理 。 

在 这 个 例子 中 ， 实 例 已 经 用 于 在 打印 体验 摘要 给 定 的 情况 下 ， 推 断 打 印 机 电源 按钮 
是 否 开 启 ， 但 是 它们 可 以 用 于 支持 任何 推理 模式 ， 就 像 常规 的 贝 叶 斯 网 络 一 样 。 

这 个 问题 的 代码 清单 分 为 3 个 部 分 。 第 一 部 分 表示 打印 机 、 软 件 、 网 络 和 用 户 的 类 
模型 。 除 了 变量 现在 放 入 类 定义 之 外 ， 这 些 类 模型 和 以 前 一 样 。 下 面 是 代码 。 
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程序 清单 7-1 用 面向 对 象 方法 解决 打印 机 问题 : 类 模型 


Package chap07 


import com.cra.figaro.language._ 
import com.cra.figaro.library.compound._ 
import com.cra.figaro.algorithm.factored.VariableElimination 


object PrinterProblemoOo { 
class Printer { 
val PowerButtonon = Flip(0.95) 
val tonerLevel = Select (0.7 -> 'high, 0.2 -> 'low, 0.1 -> "out) 
val tonerLowIndicatorOn = 
If (powerButtonon, 
CPD (tonerLevel, 
high > Elip(0,2); 
"Low -> Flip(0.6), 
out > FLlip(O0n99).y> 
Constant (false)) 
val paperFlow = Select (0.6 -> 'smooth, 0.2 -> 'uneven, 0.2 -> 'jammed) 
val paperJamIndicatorOn = 
If (powerButtonon, 
CPD (paperFlow, 
gmooth > ELlILSt0s dy 
'uneven -> Flip(0.3), 
'jammed -> Flip(0.99)), 
Constant (false)) 
val state = 
Apply (powerButtonOn, tonerLevel, paperFlow, 
(power: Boolean, toner: Symbol, paper: Symbol) => { 
if (power) { 
if (toner == "high && paper == 'smooth) "good 
else if (toner == 'out || paper == 'jammed) 'out 
else 'poor 
} -else out 
j 


class Software { 
val state = Select (0.8 -> 'correct, 0.15 -> 'glitchy, 0.05 -> 'crashed) 


class Network { 
val state = Select (0.7 -> 'up, 0.2 -> 'intermittent, 0.1 -> 'down) 


class User { 
val commandCorrect = Flip(0.65) 








接 下 来 是 PrintExperience 类 。 该 类 使 用 前 面 的 4 个 类 作为 其 参数 ， 在 其 定义 中 引用 
了 那些 类 内 部 的 变量 。 

















喝 





188 第 7 章 面向 对 象 概 率 建 模 


程序 清单 7-2 ”打印 机 问题 : PrintExperience 类 


打印 机 体验 涉及 特定 打印 机 、 软 件 、 网 络 和 用 户 ， 
所 以 PrintExperience 类 以 这 些 类 的 实例 为 参数 


class PrintExperience (Printer: Printer, software: Software network : 








Network, user: User) { 


val numPrintedPages = 
RichCPD (user.commandCorrect, network.state, software.state, 
一 printer.state, 
(wy i i OneOf (Gut}y) = Constant tzero)s 
(7 7 Oneof ('crashed})y *} => Constantl('zero}; 








(* OneOf('down), *, *) -> Constant ('zero), 
打印 体验 取 (OneOf (false), *, *, *) -> Select(0.3 -> 'zero, 0.6 -> 'some, 0.1 
Re -让 

决 于 打印 机 、 I ， 

ne Ue)y 7 7 全 。 z 7 “ 证 了 四 
软件 、 网 络 和 (OneOf (true), *, *, *) -> Select(0.01 -> 'zero, 0.01 -> 'some, 0.98 

= 

用 户 的 特定 val printsQuickly = 
属性 。 这 些 属 斑 记 Chain (network .state software.state, 











性 通过 加 上 (network: Symbol, software: Symbol) => 

实例 的 名 称 if (network == 'down || software == 'crashed) Constant (false) 
和 “.” 引 用 ， else if (network == 'intermittent || software == 'glitchy) 
例如 , “printer. Flip(0.5) 

state ”引用 else Flip(0.9)) 





. je val goodPrintQuality = 

pnter 实例 的 一 一 CPD (printer.state, 

state 属性 ‘good -> Flip(0.95), 
"Poor -> Flip(0.3), 

"out -> Constant (false)) 





Val summary = 
rs Apply (numPrintedPages, printsQuickly, goodPrintQuality, 
(pages: Symbol, quickly: Boolean, quality: Boolean) => 
if (pages == 'zero) 'none 





else if (pages == 'some || !quickly || !quality) 'poor 
else ‘excellent) 
} 


在 定义 了 所 有 类 之 后 ， 您 可 以 创建 这 些 类 的 实例 并 关联 它们 。 这 定义 了 一 个 生成 实 
例 属性 值 的 过 程 ， 换 言 之 ， 一 个 特定 的 概率 模型 。 然 后 ， 您 可 以 提供 证 据 ， 提 出 关于 具 
体 属性 的 查询 。 



































val myPrinter = new Printer 

val mySoftware = new Software 创建 类 的 实例 。 myExperience 通过 PrintExperience 构造 程 
val myNetwork = new Network 序 与 myPrinter 、mySoftware、myNetwork、me 关联 

val me = new User 


val myExperience = new PrintExperience (myPrinter, mySoftware, 
myNetwork, me) 
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def stepl() { 

val answerWithNoEvidence = 

VariableElimination.probability (myPrinter.powerButtonOn, true) - 

println("Prior probability the printer power button is on = "+ 

answerWithNoEvidence) 
] 查询 和 证 据 
涉及 实例 的 


def step2() { 
myExperience.summary.observe('poor) 
val answerIfpPrintResultPoor = 


VariableElimination.probability (myPrinter.powerButtonOon, true) 





三 


村 定 属性 














println("Probability the printer power button is on given a Poor result = 


" + answerIfPrintResultPoor) 


def main(args: Array[String]) { 
stepl () 
step2() 











7.1.3 ”关于 多 台 打印 机 的 推理 















































基本 打印 机 模型 就 是 这 样 。 接 下 来 , 我 们 加 入 相同 情况 的 多 台 打 印 机 , 细 化 该 模型 。 





目前 ， 您 已 经 看 到 面向 对 象 是 如 何 用 于 构造 模型 、 提 供 封 装 的 好 处 的 。 面 向 对 象 纺 














程 的 主要 优势 是 实现 了 代码 重用 。 它 有 两 种 重用 机 制 : 同一 模型 中 相同 类 的 多 个 实例 ， 




















以 及 同一 类 的 多 个 定义 稍 有 不 同 的 子 类 。 
本 小 节 介 绍 如 何 使 用 Scala 实现 这 两 种 
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im 
Wh 





























机 制 。 首 先 ， 我 们 来 看 看 同一 个 类 的 多 





两 种 打印 机 都 















































有 电源 按钮 和 进 纸 装 置 ， 但 是 每 


上 
人 子 类 的 定义 。 想 象 一 下 ， 您 有 两 类 打印 机 : 激光 打印 机 和 喷 墨 打印 机 。 
自 











打印 机 各 有 

















己 的 特性 。 您 可 以 使 用 






































承 获 得 想 要 的 效果 。 


























未 准 的 子 类 和 继 





程序 清单 7-4 提供 Printer 类 及 其 两 个 子 类 (LaserPrinter 和 InkjetPrinter) 的 代码 。 


























Printer 是 一 个 抽象 类 ， 其 中 的 state 属性 没有 定义 ， 由 子 类 提供 。 这 个 类 定义 了 3 个 所 有 





























打印 机 共有 的 属性 。 这 种 设计 有 两 个 好 人 处。 首先 ， 它 实现 了 LaserPrinter 和 InkjetPrinter 
之 间 的 代码 重用 。 其 次 ， 它 定义 了 打印 机 的 共用 接口 ， 模 型 的 其 余部 分 可 以 依赖 这 
些 接口 。 如 果 myPrinter 是 Printer 的 茶 个 子 类 的 实例 ， 它 可 以 依赖 类 定义 得 到 state 
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程序 清单 7-4 _ Printer 类 层次 结构 
-人 abstract class Printer { 


这 是 个 抽 val PowerButtonon = Flip(0.95) 
象 类 因为 val paperFlow = 
» 


Select (0.6 -> 'smooth, 0.2 -> 'uneven, 0.2 -> 'jammed) 





它 包含 没 val paperJamIndicatorOn = 区 所 有 打印 机 共 
有 定义 的 If (PowerButtonony 用 的 代码 
状态 属性 CPD (paperF1low, 








'smooth -> Flip(0.1), 

"uneven -> Flip(0.3), 

'jammed -> Flip(0.99)), 
Constant (false)) 





_P Val state: Element [Symbol] 


声明 所 有 打 | } 
印 机 都 有 的 


属性 的 公共 class LaserPrinter extends Printer { 
val tonerLevel = Select (0.7 -> 'high, 0.2 -> 'low, 0.1 -> 'out) 





























接口 。 具体 val tonerLowIndicatoron = 特定 于 LaserPrinter 
的 子 类 必须 If (powerButtonon, 子 类 的 属性 

实现 这 个 属 CPD (tonerLevel, 

性 "high -> Flip(0.2), 


"Low -> Flip(0.6), 
相 = E11ip{Q 0) 
Constant (false)) 





val state = 
Apply (powerButtonOn, tonerLevel, paperFlow, 
(Power : Boolean, toner: Symbol, paper: Symbol) => { 


if (power) { // 
if (toner == 'high && paper == 'smooth) 'good 
else if (toner == 'out || paper == 'jammed) "out 


else 'poor 
} -else "out 





class InkjetPrinter extends Printer { 





特定 于 Inkjet val inkCartridgeEmpty = Flip(0.1) 

> val inkCartridgeEmptyIndicator = 
Printer 子 类 的 If (inkCartridgeEmpty, Flip(0.99), Flip(0.3)) 
属性 val cloggedNozzle = Flip(0.001) 


val state = 
Apply (powerButtonOon, inkCartridgeEmpty, 

cloggedNozzle, paperFlow, 

(power: Boolean, ink: Boolean, 

nozzle: Boolean, paper: Symbol) => { 

if (power && !ink && !nozzle) { 

if (paper == 'smooth) 'good 
else if (paper == 'uneven) 'poor 
else "out Vv 


公共 接口 的 
单独 实现 
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F else. “out 
} 公共 接口 的 
| 单独 实现 























以 上 是 创建 共享 某 些 代码 和 公共 接口 的 多 对 象 模型 的 方法 。 因 为 LaserPrinter 和 
InkjetPrinter 都 是 同一 个 Printer 类 的 子 类 ，LaserPrinter 和 InkjetPrinter 的 实例 可 以 作为 
PrintExperience 的 参数 ， 后 者 的 预期 参数 为 Printer。 实 际 上 ， 模 型 中 可 以 有 两 个 
PrintExperience 实例 ， 一 个 用 于 LaserPrinter， 另 一 个 用 于 InkjetPrinter。 这 两 个 实例 可 以 
# 享 相同 的 用 户 、 网 络 或 者 软件 。 下 面 是 它们 的 定义 : 


val myLaserPrinter = new Laserprinter 










































































val myInkjetPrinter = new InkjetPrinter 

val mySoftware = new Software 

val myNetwork = new Network 

Val me = new User 

val myExperiencel = 

new PrintExperience (myLaserPrinter, mySoftware, myNetwork, me) 
val myExperience2 = 





new PrintExperience (myInkjetPrinter, mySoftware, myNetwork, me) 


现在 ,您 可 以 进行 和 这 两 种 体验 的 公共 元 素 有 关 的 推理 ， 这 些 元 素 包 括 软件 、 网 络 
和 用 户 。 下 面 是 一 个 例子 : 
def stepl() { 


myExperiencel.summary.observe('none) 
val alg = 









































VariableElimination (myLaserPrinter.powerButtonOn, myNetwork.state) 
alg-start 人 
println("After observing that printing with the laser printer " + 
"rades ng results™) 
println("Probability laser printer power button is on = "+ 
alg.probability (myLaserPrinter.powerButtonOon, true)) 
println("Probability network is down = "+ 
alg.probability (myNetwork.state, 'down)) 
alg.kill () 
} 
def step2() { 
myExperience2.summary.observe('none) 
val alg = 
VariableElimination (myLaserPrinter.powerButtonOn, myNetwork.state) 
alogq -start ty 
println("\nAfter observing that printing with the inkjet printer " + 
"also produces no result:") 
println("Probability laser printer power button is on = " 十 
alg.probability (myLaserPrinter.powerButtonOn, true)) 





println("Probability network is down = "+ 
alg.probability (myNetwork.state, 'down)) 
alg.kill () 
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运行 上 述 程序 ， 将 打印 如 下 结 


After observing that printing with the laser printer produces no result: 
Probability laser printer power button is on = 0.8573402523786461 
Probability network is down = 0.2853194952427076 


After observing that printing with the inkjet printer also produces no result: 
Probability laser printer power button is on = 0.8978039844824163 
Probability network is down = 0.42501359502427405 


上 述 结果 背后 的 逻辑 是 ， 观 察 到 喷 墨 打印 机 也 无 法 打印 之 后 ， 情 况 和 激光 打印 机 出 
问题 的 时 候 就 不 太 可 能 一 样 了 《如 果 是 那样 ， 则 意味 着 喷 墨 打印 机 也 出 现 故 障 )， 更 有 
可 能 的 是 其 他 方面 《如 网 络 ) 的 问题 。 所 以 ， 激 光 打印 机 的 电源 按钮 开启 的 概率 上 升 ， 
网 络 中 断 的 概率 也 增 大 。 

最 后 ， 我 们 想象 您 不 知道 所 拥有 的 打印 机 类 型 。 st 
印 机 ， 但 不 确定 是 哪 一 种 。 这 称 作 类 型 不 确定 性 ， 需 要 额外 的 处 理 机 制 ， 您 将 在 7.3 
节 中 学 习 。 但 是 ， 在 进入 类 型 不 确定 性 的 处 理 之 前 ， 您 必 , 须 将 面向 对 象 模型 推广 到 只 
一 般 关系 的 模型 。 这 些 模型 称 作 关系 概率 模型 ， 是 下 一 小 节 的 主题 。 











































































































































































































7.2 用 关系 扩展 OO 概率 模型 


想象 您 试图 建立 社会 化 媒体 (如 Facebook) 网 站 上 用 户 的 模型 ,希望 通过 观察 帖子 
和 评论 推断 他 们 的 兴趣 和 关系 。 根 据 社会 化 媒体 的 定义 ， 它 们 是 关系 式 的 ， 本 质 就 是 人 
们 之 间 的 关系 。 在 人 们 及 其 帖子 与 评论 之 间 也 存在 自然 的 关系 。 此 外 ， 帖 子 和 帖子 的 评 
论 之 间 也 有 某 种 关系 。 这 一 领域 有 自然 的 OO 结构 ， 包 括 人 、 帖 子 和 评论 的 类 ， 但 是 为 
了 成 功 地 建立 该 领域 的 模型 ， 必 须 使 用 关系 概率 模型 。 
关系 概率 模型 就 是 一 种 OO 模型 ， 其 中 的 关系 明确 ， 成 为 表现 形式 的 核心 部 分 。 在 
过 去 几 年 中 ， 已 经 开发 了 多 种 关系 概率 模型 语言 ， 如 概率 关系 模型 和 马尔 科 夫 逻辑 。 本 
不 介绍 任何 特定 的 语言 ， 而 是 介绍 一 种 组 合 了 许多 语言 特性 的 通用 编程 风格 。 
为 了 描述 如 何 设 计 和 实现 关系 概率 模型 ， 我 将 采取 三 个 步骤 ， 首 先 ， 我 将 介绍 如 何 
用 类 概率 模型 描述 通用 模型 。 然 后 ， 介 绍 如 何 用 这 个 通用 模型 描述 具体 情况 。 最 后 ， 介 
绍 如 何 用 Figaro 实现 这 些 步骤 。 

























































































































































































































































































7.2.1 描述 通用 类 级 模型 


在 关系 概率 模型 中 ， 类 概率 模型 有 两 个 目的 。 

时 ”描述 模型 结构 ， 包 括 模型 中 的 类 ， 类 属性 和 类 之 间 的 关系 。 

定义 支配 概率 模型 的 概率 依赖 性 、 函 数 形式 和 数值 参数 。 

过 观察 模型 结构 ， 很 容易 理解 关系 概率 模型 。 图 7-3 展示 了 我 们 的 社会 化 媒体 应 
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用 的 模型 结构 。 








该 模型 有 4 个 类 : Person (人 )、Connection〔 联 系 )、Post (帖子 ) 和 Comment 
(评论 )。 

国 ”类 包含 属性 。 属 性 有 两 类 。 

简单 属性 用 椭圆 表示 ， 表 示 某 种 类 型 值 上 的 随机 变量 。 例 如 ，Person 有 一 
个 Interest (兴趣 ) 属性 ， 这 是 一 个 字符 串 上 的 随机 变量 。Post 有 一 个 Topic( 主 
题 ) 属性 ， 也 是 字符 串 上 的 随机 变量 。Connection 有 Type (类 型 ) 属性 ， 可 以 
是 家 人 、 朋 友 或 者 熟人 。Comment 有 一 个 Match (区 配 ) 属性 ， 这 是 一 个 布尔 
变量 ， 表 示 评 论 者 的 兴趣 和 帖子 主题 之 间 是 否 存在 匹配 。 










































































类 有 简单 和 复杂 属性 
7 
/ 
i 
简单 属性 (椭圆) on 
表示 随机 变量 一、 






箭头 表示 关系 的 目标 ; 
例如 ，Post.Poster 的 一 一 
目标 是 Person 和 


复杂 属性 (矩形 ) 
表示 和 其 他 对 象 一 、 
的 关系 











图 7-3 关系 概率 模型 结构 


























一 一 复杂 属性 用 和 矩形 表示 ， 定 义 和 其 他 对 象 的 关系 。 例 如 ，Post 类 的 Poster 属 
性 自然 地 表示 发 表 帖 子 的 人 。 对 于 Post 的 任何 实例 ，Poster 属性 的 值 将 是 Person 
实例 。 因 此 ，Poster 属性 定义 了 Post 实例 和 Person 实例 之 间 的 关系 。 
有 了 关系 结构 之 后 ， 下 一 步 是 定义 表现 形式 的 概率 部 分 。 您 需要 做 的 主要 工作 是 定 
义 依 赖 性 。 我 们 首先 考虑 实例 级 别 的 依赖 性 。 指 导 方 针 是 ， 实 例 的 一 个 属性 可 能 依赖 该 
实例 的 其 他 属性 , 或 者 相关 实例 的 属性 .例如 , 如 果 您 有 Post 的 特定 实例 Post 1 和 Person 
实例 Amy，Post 1.Poster 的 值 是 Amy，Post 1.Topic 可 能 依赖 于 Amy.Interest。 
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上 述 的 依赖 性 是 实例 级 的 。 那 么 ， 如 何在 类 级 别 上 编码 依赖 性 呢 ? 很 简单 ! 











只 需 


要 从 Person 类 的 Interest 属性 画 一 个 指向 Post 类 的 Topic 属性 的 箭头 。 图 7-4 展示 了 
社会 化 媒体 模型 的 概率 依赖 性 。 概 率 依赖 性 与 图 7-3 的 关系 结构 有 很 多 重 又 ， 所 以 可 
以 清晰 地 理解 它们 。 这 个 例子 包含 了 有 向 依赖 性 〈 以 粗 箭头 表示 ) 和 无 向 依赖 性 〈 以 





























粗 虚 线 表 示 )。 


虚线 表示 对 称 依赖 性 ， 
例如 CommentMatch 和 
Connection (Comment.Post.Poster, Person 类 重复 是 因为 Commenter 
Comment.Commenter).Type 之 间 可 能 不 同 于 Poster， 所 以 影响 
| Topic 的 Interest 属 性 不 同 于 影响 。“、、 
Match 的 Interest 届 性 \ 


Connection 


粗 箭头 表示 概率 依赖 性 ; 
例如 PostTopic 依 赖 一 


Post.Poster.Interest 





图 7-4 ”社会 化 媒体 关系 概率 模型 中 的 概率 依赖 性 











规定 了 依赖 性 之 后 ， 可 以 规定 函数 形式 和 数值 参数 。 这 方面 没有 什么 特别 之 处 ， 您 





























可 以 使 用 之 前 使 用 过 的 方法 。 回 忆 第 5 章 可 以 得 知 ， 贝 叶 斯 网 络 中 的 有 向 依赖 性 用 





























条 件 


概率 分 布 描述 ， 而 马尔 科 夫 网 络 中 的 无 向 依赖 性 则 以 势 编 码 。 势 是 在 一 组 变量 上 定义 的 








函数 ， 为 变量 值 的 每 个 组 合 指定 一 个 非 负 实数 值 。 
我 们 的 例子 情况 如 下 。 
图 ”因为 Person.Interest 没有 父 变 量 ， 您 将 得 到 可 能 兴趣 上 的 一 个 概率 分 布 。 


























图 ”Connection.Type 同样 没有 父 变量 ， 您 将 得 到 可 能 的 联系 类 型 之 上 的 一 个 概率 








分 布 。 








国 。 对 于 Post.Topic， 您 有 一 个 给 定 PostPoster Interest 的 CPD， 指 定 帖子 的 主题 通 
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常 与 发 帖 者 的 兴趣 相 匹 配 。 

图 ”对 于 Comment.Match， 您 有 给 定 Comment.Post.Topic 和 Comment.Commenter. 
Interest 的 CPD。 确 定性 的 CPD 说 明 ， 如 果 帖 子 主题 和 评论 者 的 兴趣 一 致 ， 就 
存在 一 个 匹配 。 

图 ”在 评论 是 否 匹 配 以 及 发 帖 者 和 评论 者 之 间 存 在 的 联系 类 型 上 ， 您 有 一 个 势 。 联 系 


类 型 由 Connection 的 Type 类 型 标识 , 其 中 Person 1 是 Comment.Post.Poster, Person 













































































2 是 Comment.Commenter。 您 将 这 个 属性 称 作 Connection(Comment.Post.Poster, 
Comment.Commenter).Type。 对 于 Comment 的 任意 实例 c, 可 以 确定 两 个 Person 
实例 : c.Post.Poster 和 c.Commenter。 然 后 ， 确 定 联系 两 个 人 的 Connection 实 
例 ， 获 得 Connection 的 Type 属性 。 所 以 ， 势 在 该 属性 和 c.Match 上 定义 。 这 个 
势 说 明 如 果 联 系 类 型 是 熟人 ，Comment 很 有 可 能 匹配 ， 但 是 如 果 联 系 类 型 是 亲 
密 的 朋友 ， 概 率 就 有 所 下 降 ， 是 家 人 时 更 低 。 
关系 概率 模型 的 类 级 定义 就 到 此 为 止 。 下 一 步 是 创建 实例 ， 指 定 它们 之 间 的 关系 。 
我 将 说 明 这 一 步 中 定义 实例 属性 上 概率 分 布 的 方式 。 























PT 





















































7.2.2 ”描述 某 种 情况 


为 了 描述 某 种 情况 ， 您 需要 准确 指定 该 情况 下 每 个 类 的 实例 及 其 联系 方式 。 例 如 ， 
在 我 们 的 社会 化 媒体 模型 中 ， 情 况 可 以 由 表 7-1 说 明 。 











































































































表 7-1 社会 化 媒体 中 的 实例 规格 及 其 相互 之 间 的 关系 。 第 一 个 表格 说 明了 Person 的 3 个 实例 。 
第 二 个 表格 说 明了 Post 的 3 个 实例 以 及 每 个 实例 的 Poster 复杂 属性 值 。 第 三 个 表格 说 明了 
Comment 的 4 个 实例 以 及 每 个 实例 的 Post 和 Commenter 属性 值 
















































































Person Post Poster Comment Post Commenter 
Amy Post 1 Amy Comment 1 Post 1 Brian 
Brian Post 2 Brian Comment 2 Post 1 Cheryl 

Cheryl Post 3 Amy Comment 3 Post 2 Amy 

Comment 4 Post 3 Cheryl 
您 不 需要 说 明 Connection 的 实例 , 因为 它们 自动 衍生 .对 于 Comment 的 每 个 实例 c， 




















自动 衍生 Connection(c.Post.Poster,c.Commenter)。 对 于 Comment 1，Post.Poster 是 Amy， 
Commenter 是 Brian， 所 以 衍生 出 Connection(Amy, Brian)。 类 似 地 ， 对 于 Comment 2 和 
3， 可 以 衍生 出 Connection(Amy, CheryD 和 Connection(Brian, Amy)。 
对 于 Comment 4， 您 也 能 衍生 出 Connection(Amy, CheryD) 。 这 个 Connection 实例 和 
Comment 2 衍生 出 的 相同 。 这 是 一 个 重点 。 您 希望 从 Cheryl 对 Amy 的 两 个 帖子 的 评论 
推断 出 某 些 情况 。 如 果 为 每 个 评论 使 用 不 同 的 Connection 实例 ， 就 无 法 从 评论 的 组 合 推 
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断 联系 类 型 。 使 用 相同 的 Connection 实例 ， 就 能 够 确保 Cheryl 对 Amy 帖子 的 所 有 评论 


























都 可 用 于 推理 联系 的 类 型 。( 另 一 方面 ， 在 我 们 的 模型 


























Connection(Brian, Amy) 不 同 。 这 是 一 种 设计 上 的 选择 ， 














Connection(Amy，Brian) 与 
您 已 经 选择 将 联系 视 为 不 对 称 关 






































系 。 将 联系 当成 对 称 关 系 的 模型 很 容易 建立 ， 在 这 种 情况 下 ，Comment 1 和 Comment 3 


都 使 用 相同 的 Connection 实例 ) 
得 出 某 种 情况 的 概率 模型 
使 用 类 概率 模型 的 主要 好 处 之 一 是 某 种 情况 的 概率 














模型 可 以 自动 衍生 ， 您 不 需要 自 















































己 动 手 。 但 是 重要 的 是 理解 其 工作 原理 。 以 通常 的 方式 












































进行 ， 首 先 ， 您 确定 描述 情况 的 


























变量 。 接 下 来 ， 指 定 依赖 性 。 最 后 ， 指 定 描 述 这 些 依赖 性 特征 的 函数 形式 和 数值 参数 。 



































对 于 变量 ， 在 实例 和 关系 指定 之 后 ， 它 们 自动 为 情况 中 的 所 有 实例 定义 一 组 简 



































性 ， 每 个 属性 都 成 为 模型 中 的 一 个 变量 。 在 这 个 例子 ' 


四 Amy.Interest, Brian.Interest, Cheryl.Interest 











国 Post 1.Topic, Post 2.Topic, Post 3.Topic 
国 ”Comment 1.Match, Comment 2.Match, Comment 
国 








白 


im 


调 








， 有 如 下 属性 : 





3.Match, Comment 4.Match 


Connection(Amy, Brian).Type, Connection(Amy, Cheryl).Type, Connection(Brian, 


Amy).Type 
对 于 每 个 属性 ， 您 可 以 从 通用 类 级 模型 确定 它们 所 
表现 该 情况 下 依赖 性 的 图 ， 如 图 7-5 所 示 。 例 如 ， 根 据 




































































依赖 的 属性 。 这 就 可 以 构建 一 张 


Person 类 的 模型 ，Person.Interest 





没有 父 变量 ， 所 以 Amy.Interest、 Brian.Interest 和 Cheryl.Interest 也 是 如 此 。 根 据 Post 
类 模型 , Post.Topic 的 父 变量 是 Post.Poster.Interest。 这 意味 着 , 在 实例 级 别 上 , Post 1.Topic 

















的 父 变量 是 Amy.Interest，Post 2.Topic 的 父 变量 是 Brian.Interest，Post 3.Topic 的 父 变 量 


也 是 Amy.Interest。 
现在 ， 我 们 来 考虑 Comment 1.Match。 根 据 类 模型 


Comment.Post.Topic 和 Comment.Commenter Interest 。 














，Comment.Match 有 两 个 父 变量 


此 外 ， 它 有 一 条 到 Connection 


























(Comment.Post.Poster, Comment.Commenter).Type 的 无 向 边 。 对 于 特定 实例 Comment 1， 
Comment 1.Post 是 Post 1,Comment 1.Commenter 是 Brian ,Comment 1.Post.Poster 是 Amy。 
因此 ，Comment 1.Match 有 两 个 父 变量 : Post 1.Topic 和 Brian.Interest。 它 还 有 一 条 到 

















Connection(Amy, Brian).Type 的 无 向 边 。 在 贝 叶 斯 网 络 : 
的 其 他 实例 类 似 。 

严格 来 说 ， 依 赖 性 的 图 不 是 贝 叶 斯 网 络 也 不 是 马尔 
向 边 。 但 是 ， 理 解 图 中 定义 的 概率 模型 应 该 相当 容易 。 



















































































可 以 看 到 这 些 边 , 这 和 Comment 


科 夫 网 络 ， 因 为 它 包 含有 向 和 无 
图 中 包含 有 向 边 的 部 分 可 以 理解 























为 常规 的 贝 叶 斯 网 络 。 无 向 边 对 网 络 加 以 额外 的 约束 , 正如 Figaro 的 约束 一 样 。 实 际 上 ， 














下 一 小 节 中 也 就 是 这 么 在 Figaro 中 实现 的 。 
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CC PostlTope > 1 ea CT Post2Tope > 2 CT Post2Tope > CC Post3Tope > 3. CC Post3Tope > 








Connection(Amy, Cheryl).Type 


Connection(Amy, Brian). Type 
Connection(Brian, Amy).Type 


图 7-5 ”社会 化 媒体 示例 的 依赖 性 图 。 这 个 网 络 用 表 7-1 的 情况 说 明 ， 从 图 7-3 的 类 级 模型 中 自动 构造 。 
对 于 每 个 类 级 的 简单 属性 ， 网 络 中 有 一 组 变量 ， 类 的 每 个 实例 使 用 一 个 。 可 以 想象 ， 当 您 的 实例 较 多 时 ， 
网 络 很 快 就 会 蔓 


里 解 了 依赖 性 图 之 后 ， 该 情况 的 数值 参数 可 以 很 自然 地 从 类 级 模型 中 得 出 。 例 如 ， 
给 定 Amy.Interest 情况 下 的 Post 1.Topic CPD 可 以 从 给 定 Post.Poster.Interest 的 Post.Topic 
类 级 CPD 中 得 出 。 类 似 地 ，Comment 1.Match 和 Connection(Amy, Brian).Type 上 的 约束 可 
以 从 Comment.Match 和 Connection(Comment.Post.Poster, Comment.Commenter).Type 的 类 级 
势 上 得 出 。 

此 时 , 您 已 经 有 了 定义 该 情况 下 所 有 实例 简单 属性 值 上 的 组 合 概率 分 布 所 需 的 所 有 
成 分 。 简 言 之 ， 关 系 概率 模型 是 描述 某 种 情况 下 实例 属 性 上 的 概率 模型 的 一 种 手段 。 它 
与 直接 构建 图 7-4 所 描述 的 模型 相 比 有 两 个 主要 的 好 处 。 这 也 是 本 章 开始 时 强调 的 面向 
对 象 技术 的 两 个 主要 好 处 。 

图 ”通过 用 对 象 及 关系 描述 应 用 领域 ， 为 潜在 的 复杂 情况 提供 了 结构 。 图 7-4 中 的 
图 不 错 ， 但 是 它 只 涉及 3 个 用 户 、3 篇 帖子 和 4 条 评论 。 想 象 一 下 ， 如 果 有 数 
以 千 计 的 用 户 、 帖 子 和 评论 会 是 什么 情况 。 试 图 构建 和 维护 这 样 的 网 络 将 是 一 
项 恐怖 的 工作 。 但 是 我 们 在 图 7-3 中 提供 的 类 级 模型 不 管 有 多 少 实例 都 保持 不 
变 。 确 实 ， 您 必须 像 表 7-1 中 那样 说 明 实例 和 关系 ， 但 是 这 个 任务 要 容易 得 多 
了 。 许 多 关系 数据 库 工具 可 以 帮助 您 组 织 许多 实例 和 它们 之 间 的 关系 。 
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国 ”类 模型 可 以 应 用 到 具有 不 同 关 系 的 许多 实例 。 这 是 强大 的 台 

以 将 概率 模型 的 相同 类 级 定义 应 用 到 许多 情况 。 
好 了 ， 现 在 您 已 经 知道 了 关系 概率 模型 的 定义 以 及 如 何 定义 概率 分 布 ， 是 时 候 了 解 
如 何 使 用 概率 编程 实现 一 个 模型 了 。 




















为 您 可 
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用 机 种 
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7.2.3 用 Figaro 表现 社会 化 媒体 模型 


] Figaro 表现 一 个 关系 概率 模型 很 容易 。 您 已 经 从 7.1.2 小 节 中 的 面向 对 象 打印 机 
模型 了 解 了 这 方面 的 概念 ， 社 会 化 媒体 模型 也 很 类 似 。 

9 先 ， 和 以 前 一 样 创建 具有 属性 的 类 模型 。 在 我 们 的 例子 中 ， 您 可 以 为 类 设置 复杂 
的 属性 参数 。 代 码 如 下 : 


class Person() { 
val interest = Uniform("sports", "politics") 


} 
class Post(val poster: Person) { 
val topic = If (Flip(0.9), poster.interest, Uniform("sports", "politics")) 


} 
高 级 用 法 注释 : 在 我 们 的 例子 中 ,您 可 以 使 poster 成 为 Post 的 一 个 参数 ， 因 为 帖子 依赖 于 发 帖 

者 ,但 是 发 帖 者 不 依赖 于 帖子 。 所 以 您 可 以 生成 发 帖 者 ， 然 后 生成 帖子 。 如 果 发 帖 者 也 
农 赖 于 帖子 ， 就 不 能 将 poster 作为 Post 的 参数 ， 因 为 发 帖 者 无 法 在 帖子 之 前 生成 。 对 此 
有 两 种 解决 方案 。 一 种 是 使 用 Scala 的 惰性 求 值 ， 这 样 帖子 可 以 依赖 于 发 帖 者 ， 但 是 发 
帖 者 的 属性 在 需要 之 前 不 会 求 值 。 另 一 种 方法 是 为 Post 添加 一 个 内 部 属性 poster， 该 属 
性 最 初 为 null， 在 调用 Figaro 推理 算法 之 前 设置 这 一 属性 值 。 只 要 对 poster 的 所 有 引用 
发 生 在 Chain 元 素 内 部 ( 在 我 们 的 例子 中 是 下 内 部 ， 这 也 是 Chain 在 语法 上 提供 的 一 种 
便利 )， 在 推理 之 前 就 不 需要 poster 元 素 ， 到 那个 时 候 ， 该 属性 的 值 将 被 正确 设置 。 
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您 可 以 类 似 的 方式 定义 其 他 两 个 类 。 需 要 注意 的 是 Connection 类 。 联系 从 两 个 人 衍 
生 而 来 。 您 希望 能 够 调用 connection(person1, person2) 获 得 两 个 人 之 间 的 联系 ， 必 须 确保 
在 多 次 调用 connection(person1, person2) 时 得 到 的 都 是 相同 的 联系 。Figaro 提供 了 一 种 简 
单 的 方法 : 使 用 com.cra.figaro.util 包 中 的 memo 函数 ， 该 函数 确保 一 个 函数 在 用 相同 参 
数 调用 时 都 返回 相同 值 。 下 面 是 该 函数 的 使 用 方法 : 


























































































































import com.cra.figaro.util.memo 





class Connection(personl: Person, person2: Person) { 

val connectionType = Uniform("acquaintance", "close friend", "family") 
} 
def generateConnection(pair: (Person, Person)) = 

new Connection(pair._1, pair._2) 


val connection = memo (generateConnection _) 


对 Comment， 使 用 有 向 和 无 向 依赖 性 的 组 合 。 之 前 您 已 经 了 解 了 使 用 这 种 组 合 的 方 





























7.2 ”用 关系 扩展 00 概率 模型 








法 。 下 面 是 代码 。=== (3 个 等 号 ) 是 Figaro 的 相等 运算 符 ， 这 是 一 个 布尔 元 素 ， 
两 个 参数 相等 ， 元 素 值 为 true。 


class Comment (val post: Post, val commenter: Person) { 











val topicMatch = post.topic === commenter.interest 
val pair = 


^^(topicMatch，connection (Post .Poster， commenter) .connectionType) 


def constraint (pair: (Boolean, String)) = { 
val (topicMatch, connectionType) = pair 
if (topicMatch) 1.0 
else if (connectionType == "family") 0.8 
else if (connectionType == "close friend") 0.5 
SLSe 0 


} 
pair.addConstraint (constraint _) 











接 下 来 ， 提 供 一 些 证 据 : 


post1l.topic.observe ("politics") 





post2.topic.observe ("sports") 
post3.topic.observe ("politics") 


最 后 ， 回 答 一 些 查询 : 























printin("Probability Amy's interest is Politics = "十 
VariableElimination.probability (amy.interest, "politics")) 
printin("Probability Brian's interest is politics = "+ 
VariableElimination.probability (brian.interest, "politics")) 
printin("Probability Cheryl's interest is politics = "+ 
VariableElimination.probability (cheryl.interest, "politics")) 
printiln("Probability Brian is Amy's family = "+ 
VariableElimination.probability (connection(amy, brian) .connectionType, 
"family")) 
println("Probability Cheryl is Amy's family = "+ 
VariableElimination.probability(connection(amy, cheryl) .connectionType, 
"family")) 
println("Probability Cheryl is Brian's family = "+ 
VariableElimination.probability(connection(brian, cheryl) .connectionType, 
"Fami Lyn} 
这 个 程序 打印 如 下 输出 : 





Probability Amy's interest is politics = 0.9940991345397325 
Probability Brian's interest is politics = 0.10135135135135132 
Probability Cheryl's interest is politics = 0.7692307692307692 
Probability Brian is Amy's family = 0.5472972972972974 
Probability Cheryl is Amy's family = 0.4205128205128205 
Probability Cheryl is Brian's family = 0.3333333333333333 
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如 果 


注意 ，Amy 最 有 可 能 对 政治 最 感 兴趣 ， 因 为 她 发 表 了 两 篇 关于 政治 的 帖子 。Cheryl 
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7.3 


7.3.1 
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也 可 能 对 政治 感 兴趣 ， 尽 管 她 没有 发 帖 ， 但 是 对 Amy 关于 政治 的 帖子 发 表 了 评论 。 另 




















一 方面 ，Brian 发 表 了 关于 体育 的 帖子 ， 所 以 他 可 能 对 政治 不 感 兴趣 ， 不 过 ， 他 对 Amy 





的 一 篇 政治 帖子 发 表 了 评论 ， 
后 ， 因 为 Cheryl 从 未 对 Brian 


样 一 一 1/3。 





> 





























建立 天 系 和 类 型 不 确定 性 的 模型 





















































我 们 来 详细 介绍 一 下 我 们 
门 ， 人 们 发 表 这 方面 的 帖子 的 可 能 性 最 高 。 您 可 以 用 了 
型 ， 创 建 一 个 有 hot (热度 ) 属性 








一 个 指向 Topic 类 的 复杂 属 怕 
帖子 p 的 主题 。 











现在 ， 假 定 您 不 知道 
但 是 算法 不 完善 。 您 不 确 















































主题 之 间 的 关系 ， 后 者 可 能 是 Topic 的 实例 之 一 。 这 种 性 














E。 这 很 不 错 。 


于 他 对 政治 不 感 兴趣 ， 所 以 有 可 能 是 Amy 的 家 人 。 最 
的 帖子 发 表 评论 ，Cheryl 是 Brian 的 家 人 的 概率 和 最 初 一 














的 社会 化 媒体 示例 。 假 定 在 任何 给 定时 间 ， 某 些 主题 很 热 
E 题 对 象 代 











字符 串 来 建立 这 种 模 




















的 Topic〈 主 题 ) 类 。Post 类 的 topic 属性 现在 变 成 了 

















您 可 能 打算 使 用 自然 语言 处 理 系统 识别 主题 ， 
定 p.topic 的 值 ， 这 是 一 个 复杂 属性 。 换 言 之 ， 您 不 确定 | 


直子 和 


























4 况 称 为 关系 不 确定 性 ， 有 时 候 














也 称 作 引 用 不 确定 性 ， 因 





























作 ， 打 进 








电话 的 











系 不 确 














为 您 不 知道 p.topic 对 象 引 
类 似 地 ， 回 到 打印 机 示例 ， 您 可 能 不 知道 所 拥有 的 打印 机 类 型 。 您 可 能 

j j 户 没有 告诉 您 所 使 | 
PrintExperience 对 象 的 打印 机 参数 未 知 。 这 种 性 
定性 的 特例 ， 因 为 您 可 以 创建 每 个 可 























j 的 打印 


机 类 






































能 类 的 


指 的 打印 机 ) 来 处 理 这 种 情况 。 





关系 不 














定性 和 类 型 不 确 





















































见 的 用 途 一 一 处 理 关系 不 确 
模型 。 本 节 首 先 介绍 元 素 集合 和 引 月 








定性 。1 


















































会 化 媒体 示例 ， 最 后 介绍 























元 素 集 合 和 引用 


况 称 作 类 型 不 确定 性 。 
段 想 打 印 机 不 确 


定性 的 概念 很 容易 理解 , 但 是 在 Figaro : 
机 制 才能 处 理 。 这 种 机 制 称 作 元 素 集合 和 引用 ， 有 多 种 月 


用 哪 一 个 对 象 。 


着 
关 





和服 务 台 
型 。 从 技术 上 说 ， 这 意味 

类 型 不 确定 是 
定 哪 一 个 是 用 户 所 


















































Sa 
TT 女 











些 额外 的 








日 途 。 在 本 章 中 ， 您 将 看 到 最 党 
全 下 一 草 中 ， 您 将 看 到 另 一 种 重要 
的 基础 知识 ， 然 后 介绍 如 何 实现 具有 未 知 主题 的 社 
有 类 型 不 确定 性 的 打印 机 示例 。 




















j 途 一 一 处 理 动态 
































您 可 能 还 不 知道 ， 每 个 Figaro 元 素 都 有 一 个 名 称 ， 并 属于 某 个 元 素 集合 。 元 素 集合 


是 一 个 Figaro 集合 ， 








其 中 的 元 素 








一 个 字符 串 (名 称 ) 索 





























默认 情况 下 ， 您 不 需要 指定 元 素 








”) 
o 





而 











串 (人 









































， 除 非 另 做 说 明 ， 每 个 元 素 都 
理由 为 元 素 取 一 个 特殊 的 名 称 ， 
没有 介绍 这 些 概 念 。 但 是 对 于 














~ 




















关系 不 确定 性 ， 我 





契 


引 。 您 不 知道 这 一 点 的 原因 是 ， 




















的 名 称 和 元 素 集合 。 默 认 情 况 下 ， 元 素 的 名 称 是 一 个 空 
属于 一 个 默认 的 元 素 集 合 。 
或 者 将 其 放 在 默认 集合 之 外 的 任何 元 素 集 合 ， 所 以 我 


门 需要 这 些 概念 。 








目前 ， 您 还 没 








7.3 


建立 关系 和 类 型 不 确 


定 改 





的 模型 201 








元 素 集合 很 有 用 ， 它 们 为 您 提供 了 不 通过 





pA 











个 元 素 集 合 ， 您 可 以 用 ec.get(n) 获 





导 与 名 称 n 相关 联 的 元 素 。 

















Scala 变量 确认 元 素 的 方法 。 如 果 ec 是 一 


有 时 候 ， 这 是 获得 元 素 名 


世 全 


























柄 上 
这 正轨 


元 素 集合 为 您 提 





























的 唯一 方法 。 当 您 编写 自己 的 程序 时 , 在 需要 
[编译 时 和 运行 时 类 型 检查 一 样 。 有 些 时 候 ， 您 在 编译 时 无 法 完全 确定 某 个 变量 的 
所 以 必须 进行 运行 时 检查 。 同 样 , 在 编译 时 您 可 能 不 知道 如 何 获得 
从 了 在 运行 时 动态 获得 变量 的 手 


时 可 能 不 知道 名 称 为 n 的 是 哪 一 个 元 素 。 











一 个 特定 元 素 ， 





段 。 








加 以 思考 , 就 可 以 得 到 处 理 关 系 不 确 











定性 的 一 种 方法 。 您 不 确定 Post 








的 topic 属性 值 。 


topic 所 指 的 主题 有 一 个 名 为 hot 的 属性 ， 这 是 一 个 元 素 。 您 想 要 做 的 就 是 从 Post 类 内 部 















































引用 topic.hot。 但 是 用 Scala 做 不 到 这 一 点 ,因为 topic 不 是 Topic 的 特定 实例 ! 作为 替代 ， 
您 可 以 使 Post 和 Topic 成 为 元 素 集合 ， 并 使 用 get("topic.hot") 获 得 需要 的 元 素 。 

现在 ， 您 可 能 会 问 ，topic.hot 不 是 一 个 名 称 ， 如 何 做 到 这 一 点 ? 这 是 两 个 名 称 的 连 
接 。 第 一 个 名 称 topic 是 Post 元 素 集合 中 的 元 素 名 称 。 在 本 例 中 ， 这 是 一 个 Element[Topic]， 


其 值 表示 帖子 的 特定 主题 。 


名 称 的 连接 称 作 引用 。 图 7-6 展示 了 这 一 引用 的 解析 方法 。 翌 
FP 定义 ， 该 集合 是 前 一 个 元 素 的 一 个 可 能 值 。 











称 在 一 个 元 素 集合 























元 素 集合 一 于 
r 

名 称 p "topic" 

1 和 
r 
由 名 称 识别 的 元 素 一 一 * Element[Topic] 
图 7-6 ”解析 topic. 
如 何 理解 引 | 

















sports 和 politics, 


它们 都 是 Topic 类 的 实例 。Topic 是 一 个 元 素 集合 ， 它 拥有 


第 二 个 名 称 hot 是 Topic 元 素 集合 中 一 个 元 素 的 名 称 。 这 种 


点 是 引用 中 每 个 后 续 的 名 








Topic <— 


作为 前 一 元 素 值 
类 型 的 元 素 集合 


"hot" 


Element[String] 


hot 引用 


j ? 让 我 们 考虑 一 下 定义 随机 过 程 的 原则 方法 。 假定 有 两 个 可 能 的 主题 














个 名 为 “hot” 














的 属性 hot。( 一 般 来 说 ，Figaro 的 属性 
者 





名 称 不 一 定 要 与 Scala 变量 的 名 称 相 同 ， 但 是 两 
日 同 往往 是 有 意义 的 。) postl 是 Post (也 是 一 个 元 素 集 合 ) 的 一 个 实例 ， 具 有 poster 




















和 topic 属性 。 主 题 属性 


的 名 称 为 “topic”。 调 


postl.get("topic.hot") 定 义 一 个 随机 过 程 ， 





该 过 程 的 步 又 如 图 7-7 所 示 。 








还 记得 Figaro 的 元 素 表现 的 是 随 忆 
postl.get("topic.hot") 定 义 的 随机 过 程 。 




















在 元 素 


过 程 吗 ? 您 可 以 使 用 一 个 元 素 表示 
集合 中 取得 一 个 引用 正 是 这 样 实现 的 ， 苇 






































为 它 返回 表示 随机 过 程 的 元 素 。 您 可 以 在 模型 中 使 用 这 个 元 素 ， 就 像 使 用 其 他 任何 元 素 
一 样 。Figaro 在 后 台 负 责 找 出 引用 和 所 有 可 能 的 解 ， 而 您 完全 不 需要 为 此 担心 ， 这 真是 














一 伯 





F 好 事 。 
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1.post1 中 的 名 称 "topic” 4.sports 中 的 名 称 “hot* 
选择 postl .topic 属 性 选择 Sports.hot 属 性 5 sports hot 的 值 从 truc 
rt | 
\ 3. 假 定 选 中 sports / / 和 false 中 随机 选择 
true 
false 4 一 一 
、N 


\ 


6. 假 定 选中 false 


true 





false 


2.postl1.topic 的 值 从 sports 和 
politics 对 象 中 随机 选择 


7.postl.get (" topic.hot" ) 已 经 生成 false 值 
图 7-7 3 引用 是 生成 值 的 随机 过 程 。 在 这 个 框图 中 ， 过 程 为 元 素 集 合 中 的 引用 topic.hot 生成 值 


Oe So Dt oem de 
性 和 名 为 hot 的 属性 之 间 存 在 依赖 性 ， 该 怎么 办 ? 现在 假定 您 创建 一 个 表示 
postl.get("topic.hot") 的 元 素 和 男 一 个 表示 oe re 在 任何 给 定 
的 可 能 世界 中 ，topic 是 sports 或 者 politics; 它 无 法 同时 为 这 两 个 值 。 在 任何 可 能 世界 
中 ， 不 管 得 到 的 是 important 还 是 hot 元 素 ，topic 在 postl 中 的 解 也 必须 是 相同 的 结果 。 
这 就 引入 了 postl.get("topic.hot") 和 postl.get("topic.important") 之 间 的 依赖 性 。 这 是 您 的 
直觉 中 可 以 预计 到 的 ，Figaro 的 算法 正确 地 人 处理 这 一 情况 。 
















































































7.3.2 具有 关系 不 确定 性 的 社会 化 媒体 模型 
有 了 上 述 的 机 制 ， 您 就 为 再 次 处 理 社会 化 媒体 模型 做 好 了 准备 ， 这 次 模型 在 帖子 的 
主题 上 具有 不 确定 性 。 首 先 创建 一 个 Topic 类 : 


class Topic() extends ElementCollection { 
val hot = Flip(0.1) ("hot", this) 



































} 











第 一 行 说 明 ，Topic 的 实例 也 是 一 个 元 素 集 合 ， 意 味 着 元 素 可 以 指定 名 称 并 放 在 集 
合 中 。 第 二 行 创建 一 个 Flip(0.1) 元 素 ， 给 定名 称 hot， 并 将 其 放 在 元 素 集合 this 中 。 在 
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Topic 类 的 上 下 文中 ，this 关键 字 指 的 是 Topic 的 特定 实例 。 所 以 ，Topic 的 任何 给 定 实 
例 都 是 一 个 元 素 集 合 ， 该 元 素 集合 中 有 一 个 名 为 hot 的 元 素 ， 这 是 一 个 Flip(0.1)。 

这 是 您 第 一 次 遇 到 Flip 构造 程序 的 两 个 额外 参数 。 这 些 参 数 是 可 选 的 ， 通 常 可 以 忽 
略 。 只 在 需要 为 元 素 取 名 ， 或 者 将 其 放 在 特定 元 素 集合 中 时 才 需 要 它们 。 但 是 如 果 您 只 
想 为 元 素 取 名 ， 或 者 只 想 将 其 放 在 特定 的 元 素 集 合 中 ， 还 必须 指定 其 他 可 选 参 数 。Flip 
不 是 提供 这 些 可 选 参数 的 唯一 构造 程序 。 一 般 来 说 ， 所 有 Figaro 内 建 元 素 构造 程序 都 可 
以 指定 一 个 名 称 和 元 素 集 合 。 
现在 ， 您 可 以 定义 Topic 类 的 两 个 实例 : 


val sports = new Topic () 
















































































val politics = new Topic () 











Person 有 一 个 interest 属性 ， 这 是 一 个 未 知 的 Topic 实例 。interest 属性 是 一 个 
Element[Iopic]: 


class Person () { 


val interest Uniform(sports, politics) 


Post 也 是 一 个 元 素 引 
的 Element[Topic]j: 


合 , 它 有 一 个 名 为 topic 的 属性 , 该 属性 是 依赖 于 posterinterest 











人 


class Post (val poster: Person) extends ElementCollection { 
val topic = 


If (Flip(0.9), poster.interest, 





Uniform(sports, politics)) ("topic", this) 





现在 ，Comment 类 中 使 用 了 引用 topic.hot。 有 具体 的 逻辑 是 ， 即 使 人 们 对 热门 的 主题 
不 感 兴趣 ， 也 将 为 之 撰写 评论 。 所 以 ， 如 果 主 题 与 评论 者 的 兴趣 相符 或 者 是 热门 话题 ， 
那么 就 可 能 有 一 篇 评论 。 下 面 是 Comment 类 的 相关 代码 : 


class Comment (val post: Post, val commenter: Person) { 









































val isHot = post.get[Boolean] ("topic.hot") 


val appropriateComment = 
Apply (Post .topic, commenter.interest, isHot, 
(t1: Topic, t2: Topic, b: Boolean) => (tl == t2) || b) 
// add the undirected constraint on appropriateComment and the connection 


// type as before 

















如 果 您 观察 了 之 前 的 isHot 定义 就 会 注意 到 ， 必 须 指定 元 素 的 值 类 型 (这 里 是 布尔 
类 型 )。 实 际 上 ， 您 通常 必须 指定 值 类 型 。 仪 从 元 素 名 称 ，Scala 编译 器 无 从 知晓 元 素 的 
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值 类 型 。 但 是 为 了 能 够 使 用 
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isHot, 









































您 必须 知道 其 值 类 型 。 在 方 括号 中 指定 值 类 型 作为 


get 的 类 型 参数 ， 告 诉 Scala 编译 器 所 需 的 信息 。 











上 面 

















写 postl.topic.observe(politics) 观 察 topic 





您 还 可 以 查询 复杂 属性 的 值 。 这 个 模型 支持 一 些 有 趣 的 查询 和 推理 。 我 们 从 下 
可 以 查询 人 们 的 兴趣 和 帖子 的 主题 ， 














查询 开始 ， 这 些 查询 说 明 ， 
实例 : 


println ("Probabi 
VariableE 
println ("Probabi 
VariableE 
println ("Probabi 


VariableE 











println ("Probabi 





VariableE 





上 述 代码 打印 如 下 结果 


Probability Amy's interest 
Probability post 2's topic 
Probability post 3's topic 
Probability Amy is Brian's 


你 
VC 


limination.probabi 
lity post 2's 
limination.probabi 
lity post 3's 


limination.probabi 


limination.probabi 











的 代码 已 经 涵盖 了 整个 模型 。 您 可 以 和 以 前 一 样 创建 实例 和 关系 
重复 代码 。 我 将 展示 如 何 提供 关于 复杂 属性 的 证 据 。 这 和 简单 属性 完全 一 样 ， 


























这 里 不 再 
您 可 以 编 


Tk 


























属性 的 值 是 Topic 实例 politics。 


lity Amy's interest is politics = 
lity (amy .interest, 
topic is sports = 


topic is sports = 


lity Amy is Brian's family = 






































用 的 
这 些 都 是 Topic 类 的 











nm 十 
politics)) 
mm 十 


Lity (post2.topic, sports)) 


"+ 


lity (post3.topic, sports)) 


"+ 


Lity (connection (brian, amy) .connectionType, 


"family")) 


i PoritEes 
is sports = 
is sports = 


family = 


0 
0 


0.9656697011762803 
.24190044937009825 
.06958146174469142 


05379d1735849754334 


现在 ， 观 察 体 育 主题 为 热门 主题 (sports.hot.observe(true)) 并 运行 相同 的 查询 。 这 


























将 打印 如 下 结果 : 


Probability Amy's interest 
Probability post 2's topic 
Probability post 3's topic 
Probability Amy is Brian's 








注意 ， 
类 模型 中 ， 
帖子 1 的 主题 是 政治 , Amy 


发 布 了 帖子 2 且 Amy 对 此 发 表 了 记 











育 是 热门 主题 ， 
占 子 3 的 情况 与 此 类 似 。 














现在 ， 我 们 来 思考 Amy 为 Brian 家 人 的 概率 为 什么 下 降 。 您 


i 区 DLLes 
is sports = 
is sports = 


family = 





发 布 了 


[HH 











0 
0 


占 子 2 和 帖子 3 的 主题 是 体育 的 概率 
主题 的 热度 没有 成 为 主题 选择 的 
占 子 1, 所 以 她 的 兴趣 更 可 能 是 政治 。 您 还 知道 Brian 
F 论 。 因 为 人 们 更 倾向 于 评论 与 其 兴趣 匹配 的 主题 ， 

除非 这 些 主题 是 热门 话题 ， 所 以 您 相信 帖子 2 的 主题 很 可 能 是 政治 。 但 是 , 现在 您 知道 
体育 是 热门 主题 ， 因 此 ， 帖 子 2 的 主题 是 体育 的 可 能 性 很 大 ，Amy 发 表 评论 是 因为 体 
而 非 她 对 体育 感 兴趣 。 这 就 是 





0.9609178093049061 
.3729396845525878 
.0900555124038995 


0.33670840928905443 








已 经 增 大 。 这 可 能 令 人 吃惊 , 因为 在 Post 
部 分 。 但 是 这 是 有 原因 的 : 您 之 前 观察 到 




































































占 子 2 的 主题 为 体育 的 概率 增 大 的 原因 。 











7.3.3 


7.3 ”建立 关系 和 类 型 不 确定 性 的 模型 




















趣 的 是 政治 。 
发 表 评论 的 原因 ， 
是 Brian 的 家 人 ， 或 者 体 
































育 是 热门 主题 。 





Brian 家 人 的 置信 度 大 约 有 38%。 观 察 到 体 
了 Amy 是 Brian 家 人 的 概率 。 这 是 您 在 第 








性 的 一 个 例子 。“Amy 是 Brian 的 家 人 ” 





为 两 者 应 该 相互 联系 ,但 是 在 观察 到 Amy 很 有 可 
评论 之 后 ， 两 者 就 产生 了 联系 。 这 是 “解释 消除 ” 推 到 
I 值 的 两 种 备 选 解 释 ， 观 察 到 一 种 解释 会 降低 另 一 利 














况 







































































种 可 能 的 解释 是 : 
育 是 热门 主题 之 前 ， 您 对 Amy 是 
育 是 热门 主题 提供 了 另 一 个 解释 ， 因 此 降低 
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占 子 2 有 两 种 可 能 性 : 要 么 它 是 关于 政治 的 ， 这 种 情况 下 不 需要 解释 Amy 
要 么 是 关于 体育 的 ， 这 种 情况 需要 解释 。 丙 





Amy 




























































































5 章 关于 贝 叶 斯 网 络 的 论述 中 看 到 的 诱导 依赖 

和 体育 主题 的 热度 原先 是 独立 的 ， 没 有 理由 认 

能 对 政治 感 兴趣 且 对 Brian 的 帖子 发 表 

模式 的 经 典 例子 ， 其 中 有 相同 观 
解释 的 可 能 性 




















































































































看 类 似 : 使 ) 












































具有 类 型 不 确定 性 的 打印 机 模型 
您 已 经 了 解 了 如 何 实现 具有 关系 不 确定 性 
型 研究 类 型 不 确定 性 。 这 里 的 原理 和 上 
实例 ， 每 个 用 于 一 个 可 能 的 类 型 ， 并 创建 一 个 取 值 为 这 些 扩 
示 未 知 打印 机 。 
这 个 例子 有 两 个 前 一 小 节 
元 素 。 所 以 在 查询 和 观察 中 使 用 get， 这 很 简单 。 


























未 见 的 新 变化 。 首 先 ， 您 将 陈述 说 


























的 模型 ， 下 面 我 们 用 打印 机 类 型 未 知 的 模 
元素 集合 和 引用 。 创 建 多 个 打印 机 
[ 印 机 实例 之 一 的 元 素 ， 以 表 


E 据 ， 并 查询 身份 未 知 的 


第 二 个 变化 是 ,您 没有 从 根本 上 改变 PrintExperience 的 原始 定义 ,该 定义 中 以 Printer 





为 一 个 参数 。 您 没有 具体 的 打印 


机 ， 而 是 / 















































创建 一 个 PrintExperience 并 访问 


属性 。 您 将 使 用 




















Element[Printer] 表 示 的 未 知 打 
其 中 的 PrintExperience 基于 任意 打印 机 。 











< 











印 机 之 后 ， 使 用 

















] 一 个 Element[Printer] 表 示 未 知 打 印 机 ， 您 必须 
Figaro 的 Apply 实现 这 一 点 。 在 得 到 由 
Apply 创建 一 个 Element[PrintExperience]， 





实际 上 ， 您 将 看 到 模型 的 变化 很 小 ， 只 有 区 区 五 行 。 更 多 的 变化 出 现在 模型 实例 化 








和 查询 的 方法 ， 但 是 那 正 是 您 打算 修改 的 地 方 。 下 





1. 




















外 是 模型 的 5 处 变化 。 




















2 
打印 机 是 一 个 元 素 集 合 。 


abstract class Printer extends Elem 








entCollection { 


object PrinterProblemTypeUncertainty extends ElementCollection { 


我 们 将 整个 模型 放 在 一 个 元 素 集合 中 。 


3. val powerButtonOn = Flip(0.95)("power button on", this) 





powerButtonOn 是 您 将 要 查询 的 属 己 


素 集合 中 。 








E， 我 们 为 其 命名 ， 








开 将 其 放 在 所 忆 











4. class PrintExperience(printer: Printer, software: Software, network: 


Network, user: User) extends ElementCollection { 


打印 机 体验 也 是 一 个 元 素 集合 。 





的 打印 机 元 
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5. val summary = Apply(...)("summary", this) 

您 将 观察 关于 打印 机 摘要 的 证 据 , 所 以 为 其 命名 , 并 将 其 放 在 打印 机 体验 元 素 集 合 中 。 

变化 就 是 这 些 。 现在 您 可 以 描述 一 个 特定 的 情况 。 这 就 是 类 型 不 确定 性 出 现 的 地 方 。 
您 将 按照 如 下 的 方式 推进 。 首 先 ， 定 义 myPrinter 为 不 同类 型 打印 机 中 的 一 次 随机 选择 ， 
为 myPrinter 命名 ， 并 将 其 放 在 整个 模型 的 元 素 集合 中 : 














hn 
T 







































































val myPrinter = 


Select (0.3 -> new LaserpPrinter, 





0.7 -> new InkjetPrinter) ("my printer", this) 


接 下 来 ， 和 以 前 一 样 创建 Software、Network 和 User 实例 : 


val mySoftware = new Software 
val myNetwork = new Network 


val me = new User 




















最 后 , 使 用 Apply 和 现 有 的 PrintExperience 类 创建 myExperience, 以 特定 的 打印 机 、 
软件 、 网 络 和 用 户 作 为 参数 。 同 样 ， 为 myExperience 命名 并 将 其 放 在 最 高 级 的 元 素 重 
合 中 : 



































A 














val myExperience = 
Apply (myPrinter, (p: Printer) => 
new PrintExperience(p, mySoftware, myNetwork, me)) ("print experience", 
this) 


现在 ,您 已 经 为 陈述 证 据 和 提出 查询 做 好 了 准备 。 您 将 观察 有 关 打 印 体验 摘要 的 证 
据 。 但 是 myExperience 是 一 个 Element[PrintExperience]， 如 何 得 到 这 个 摘要 呢 ? 当然 是 
使 用 引用 ! 您 为 摘要 元 素 命 名 并 将 其 放 在 PrintExperience 元 素 集合 中 , 并 为 myExperience 
命名 ， 将 其 放 在 最 高 级 的 元 素 集合 中 ， 以 便 完 成 引用 。 代 码 如 下 : 




















































































































val summary = get[Symbol] ("print experience.summary") 


summary.observe('none) 


根据 “无 打印 输出 ”的 证 据 ， 您 将 查询 两 件 事 。 一 是 打印 机 电源 按钮 是 否 开启 。 同 
样 ，myPrinter 是 一 个 元 素 ， 所 以 不 能 直接 查询 ， 但 是 可 以 使 用 引用 : 













































































val PowerButtonon = get[Boolean] ("my printer.power button on") 


第 二 个 查询 更 为 有 趣 。 想 象 您 身 处 服务 台 ， 不 知道 用 户 的 打印 机 类 型 。 在 用 户 开 始 
告诉 您 有 关 打印 体验 的 事情 时 ， 您 可 能 开始 腾 测 打印 机 的 类 型 。 您 可 以 查询 模型 ， 根 据 
正 据 得 出 打印 机 的 类 型 ,使 用 Scala 的 运行 时 类 型 检查 方法 isInstanceOf 可 以 实现 这 一 操 
作 。 确 切 地 说 ， 可 以 用 如 下 代码 定义 一 个 元 素 ， 该 元 素 在 myPrinter 是 激光 打印 机 时 取 
值 为 true: 
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7.4 


7.5 
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val isLaser = 
Apply (myPrinter, (p: Printer) => p.isInstanceOf [LaserPrinter]) 

现在 ， 您 可 以 进行 推理 ， 回 答 查 询 ， 获 得 如 下 结 
After observing no print result: 
Probability printer power button is on = 0.8868215502107177 
Probability printer is a laser printer = 0.23800361000850662 

打印 机 为 激光 打印 机 的 先 验 概率 是 0.3。 现 在 您 已 经 观察 到 一 次 不 好 的 打印 体验 ， 
这 个 概率 已 经 降低 。 根 据 我 们 的 模型 ， 激光 打印 机 比 喷 墨 打印 机 更 可 靠 ， 所 以 糟糕 的 打 
印 体验 更 可 能 发 生 在 喷 墨 打印 机 上 。 

我 希望 您 能 了 解 ， 建 立 对 象 及 其 关系 的 模型 (包括 关系 及 类 型 不 确定 性 )， 能 够 描 
述 有 趣 和 丰富 的 情况 ， 进 行 复杂 的 推理 。 和 前 一 章 中 描述 的 集合 相 结 合 ， 本 章 的 面向 对 
A te a te A Rt 
下 一 章 描述 如 何 建立 关于 重要 特例 的 模型 ， 并 对 其 进行 推理 寺 间 变化 的 情况 的 动 
态 模型 。 
小 结 

四 面向 对 象 和 关系 编程 范式 使 您 能 够 构造 复杂 的 模型 并 高 效 地 重用 模型 组 件 。 

四 在 这 些 范 式 中 ， 您 用 属性 和 概率 依赖 性 、 函 数 形式 及 数值 参数 规定 类 模型 。 

加 ”在 实例 级 别 ， 这 些 模型 定义 了 所 有 实例 的 所 有 属性 上 的 概率 分 布 ， 您 可 以 陈述 

这 些 属性 的 相关 证 据 ， 并 对 其 进行 查询 。 
加 ”Figaro 元 素 集 合 和 引用 提供 了 访问 编译 时 身份 未 知 的 元 素 的 机 制 。 
加 ”为 了 表现 关系 或 者 类 型 不 确定 性 ， 创 建 值 为 未 知 元 素 集合 的 元 素 ， 并 使 用 引用 
访问 元 素 集 合 的 属性 。 

练习 








在 www.manning.com/books/practical-probabilistic-programming 上 可 以 找到 部 分 练习 


的 解答 


1. 您 的 公司 有 5 


概率 模型 ， 捕 捉 这 些 部 门 之 间 的 影响 。 使 用 该 模型 




















个 部 门 : 研发 、 和 生产、 销售 、 人 力 资源 和 财务 。 构 建 一 个 














面向 对 象 























， 根 据 部 门 状态 查询 公司 的 健康 状况 。 





2. 您 将 建立 电影 受 欢迎 程度 的 模型 。 每 部 电影 有 多 位 演员 ， 每 位 演员 出 演 多 部 
1 次 迎 程 度 的 变量 。 电 影 的 受 欢迎 程度 取决 于 演员 受到 


影 。 
喜爱 的 
的 受 欢 









































每 位 演员 有 
程度 。 根 据 电 景 
迎 程度 。 
























































、 演 员 及 受 欢迎 程度 的 数据 集 ， 预 涡 











1 指定 演员 出 演 的 


新 电影 
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3. 在 您 的 学 校 中 ， 学 生 可 以 选择 不 同学 科 的 课程 。 同 一 位 教师 可 能 教授 多 个 学 科 ， 
同一 个 学 科 可 能 由 多 位 教师 教授 。 学 生 在 某 一 课程 中 的 成 绩 级 别 取 决 于 3 个 因素 : 学 生 
的 能 力 、 学 科 的 难度 和 教师 的 质量 。 编 写 一 个 关系 概率 模型 以 表现 这 种 情况 。 使 用 由 学 
生 、 选 择 的 课程 、 他 们 的 教师 以 及 成 绩 级 别 组 成 的 数据 集 ， 推 断 目标 学 生 的 能 力 、 目 标 
学 科 的 难度 以 及 目标 教师 的 质量 。 

4. 继续 练习 3， 您 是 一 位 学 生 ， 正 在 规划 下 一 学 期 的 课程 。 不 幸 的 是 ,教师 还 没有 
公布 ， 但 是 您 可 以 假设 菜 个 学 科 的 教师 将 是 之 前 的 任课 教师 之 一 。 使 用 关系 不 确定 性 表 
现 这 种 情况 ， 预 测 目标 学 科 的 成 绩 级 别 。 

5. 考虑 一 个 车 辆 监控 应 用 。 存 在 多 种 车 辆 ， 如 卡车 、 轿 车 和 摩托 车 。 每 种 车 辆 都 
有 尺寸 和 颜色 等 属性 。 每 种 车 辆 的 变量 分 布 不 同 。 您 有 一 部 照相 机 可 以 拍摄 车 辆 的 照片 ， 
有 一 个 图 像 分 析 算 法 能 够 估计 车辆 的 尺寸 和 颜色 。 估计 的 大 小 和 颜色 取决 于 真实 的 尺寸 
和 颜色 ， 但 不 一 定 完全 相等 。 使 用 具有 类 型 不 确定 性 的 关系 模型 表现 这 种 情况 。 利 用 该 
模型 根据 估算 的 尺寸 和 颜色 推断 给 定 车 辆 的 类 型 。 
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本 章 介绍 如 下 内 容 : 

创建 动态 系统 的 概率 模型 

不 同类 动态 模型 的 使 用 ， 包 后 马尔 科 夫 链 、 隐 含 马 
尔 科 去 模型 和 动态 贝 叶 斯 网 络 





加 ”使 用 概率 模型 创建 新 型 动态 模型 ,如 具有 时 变 结构 
的 模型 
国 ”动态 系统 的 持续 监控 








在 过 去 几 章 中 ， 您 已 经 学 习 了 许多 关于 使 用 概率 编程 构建 概率 模型 的 知识 。 现 在 ， 
您 已 经 掌握 了 许多 技术 ， 包 括 依赖 性 建 模 、 函 数 、 集 合 和 面向 对 象 建 模 。 本 章 在 这 些 技 
术 基 础 上 建立 一 种 特别 重要 的 系统 模型 : 状态 随时 间 而 改变 的 动态 系统 。 
在 8.1 节 中 介绍 动态 概率 模型 的 一 般 概 念 之 后 ，8.2 节 通 过 一 系列 示例 增强 对 概念 的 
理解 ， 从 最 简单 的 时 间 序 列 开 始 ， 到 系统 状态 结构 随时 间 变 化 的 系统 为 止 。 首 先 ， 本 章 
假定 动态 系统 运行 的 时 长 固定 ， 但 是 8.3 节 放 松 了 这 一 假设 ， 可 以 为 无 限 运行 的 系统 建 
模 。 这 需要 一 个 新 的 Figaro 概念 一 一 宇宙 。 您 将 了 解 如 何 使 用 Figaro 建立 持续 系统 模型 
并 进行 推理 。 
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动态 概率 模型 

在 第 1 章 中 ， 您 研究 了 推理 足球 赛 中 角球 的 问题 。 利 用 概率 推理 系统 可 以 回答 3 类 
查询 : 

加 ”根据 给 定 的 因素 〈 如 风力 、 中 锋 身 高 等 ) 预测 角球 的 结果 。 

国 ”推断 可 能 导致 观察 结果 的 属性 ， 如 守门 员 的 技能 水 平 。 

图 ”使 用 一 次 角球 的 结果 推断 可 能 影响 第 二 次 角球 结果 的 属性 ， 然 后 相应 地 预测 第 

二 次 角球 的 结果 。 

在 本 章 中 ， 您 不 再 为 作为 孤立 事件 的 单 次 角球 建 模 ， 而 是 将 整 场 足球 赛 作为 相互 联 
系 的 一 序列 事件 建 模 。 足 球赛 是 动态 系统 的 一 个 例子 。 这 意味 着 ; 

国足 球赛 的 每 个 时 间 点 都 有 一 个 状态 。 这 个 状态 可 能 包含 比分 、 控 球 方 和 每 个 球 


,a 
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天 气 。 


一 段 


车 道 





率 依 


队 的 信心 。 
国企 





会 保持 控 球 ; 
度 波动 。 
吉 合 这 
相互 关联 的 系统 。 
) 态 系统 的 例子 
类 似 


-村 


岂 








\ 





ll 


E 何 时 点 的 状态 取决 于 更 早 的 状态 。 例 如 ， 在 足球 赛 ， 
于 之 前 的 比分 和 是 否 刚刚 有 进 球 ; 


点 就 可 以 得 


也 ， 公 司 绩效 也 是 一 个 动态 系统 ; ] 





























球 队 的 信心 也 取决 


时 间 点 有 








上 如 下 定义 : 动态 系统 是 每 个 














， 任 
球 权 取 决 于 之 前 的 球 权 ， 
F 之 前 的 信心 ， 因 为 信心 通常 不 会 突然 地 大 幅 


口 





大 | 











J 时 点 的 比分 取决 
为 控 球 一 方 有 机 


个 状态 ,不 同时 点 的 











大 | 





民 多 。 天 和 气 明 显 是 一 个 动态 系统 ， 因 为 今天 的 


其 状态 
































时 间 内 这 些 数量 





时 的 信 


相互 联系 。 第 三 



































圳 ; 
民明 显 ， 某 个 时 








上 的 车 辆 数量 ，4# 

















您 将 








研究 动态 系统 
中 ， 状 态 由 随机 变量 表示 。 例 如 ， 对 了 
平 及 利润 的 变量 。 这 些 变量 称 作 状 态 变量 。 概 率 模型 定义 不 同时 点 状态 变量 值 之 间 的 概 











[点 的 汽车 数量 与 较 早 
既 率 模型 的 色 





















































赖 性 。 
动态 概率 模型 的 使 用 与 常规 静态 概率 模型 的 使 用 方式 相对 应 。 








三 个 例子 是 公路 上 的 交通 状况 ， 状 态 可 
时 点 的 数量 相关 。 
| 建 。 这 种 模型 称 作 动态 概率 模型 。 在 动态 概率 模型 


一 家 公司 的 绩效 ， 您 可 能 有 表示 任何 时 点 收入 水 





天 气 依赖 了 














六 前 几 天 的 
1 多 个 数量 组 成 ， 如 收入 和 利润 ， 


人 日 全 个 


甩 丰 母 作 


图 ”考虑 当前 状态 和 一 段 时 间 的 状态 之 间 的 依赖 性 ， 预 测 未 来 时 点 的 系统 状态 。 例 
如 ， 您 可 以 考虑 当前 比分 和 球 队 的 信心 ， 预 测 足球 赛 的 最 终 比 分 。 
失利 ， 可 以 尝试 确定 























































































































可 以 使 ) 











j 这 些 估 算 预 


国 ”推断 当前 状态 的 过 去 根源 。 例 如 ， 如 果 您 的 球 队 在 比赛 ， 
比赛 中 的 哪些 决策 导致 这 样 糟糕 的 结果 。 

图 ”根据 一 段 时 间 内 得 到 的 观测 值 ， 随 时 监控 系统 状态 。 例 如 ， 您 可 以 根据 球场 上 
发 生 的 情况 ， 持 续 估 算 两 个 球 队 的 信心 和 质量 。 然 后 ， 您 
测 剩 下 的 比赛 时 间 内 发 生 的 情况 。 




















8.2 ”动态 模型 类 型 211 























上 述 3 种 能 力 对 足球 队 的 经 理 极其 有 用 。 实 际 上 ， 动 态 系统 十 分 重要 和 普遍 ， 因 此 
为 动态 概率 模型 已 经 开发 了 整 组 技术 。 概 率 编 程 系统 可 以 表现 用 于 动态 概率 模型 的 许多 
已 有 框架 ,如 下 一 节 介绍 的 隐 含 马尔 科 夫 模型 和 动态 贝 叶 斯 网 络 ， 而 且 更 进一步 地 包含 
了 丰富 数据 结构 和 控制 流 等 特性 。 好 了 ， 不 再 多 言 ， 让 我 们 来 研究 一 些 此 类 框架 ， 以 及 
使 用 概率 编程 表达 它们 的 方法 吧 。 








































































































8.2 动态 模型 类 型 


本 节 介 绍 各 种 不 同 的 动态 模型 。 您 将 从 最 基本 的 模型 〈 马 尔 科 夫 链 ) 开始 ， 然 后 考 
虑 广 为 使 用 的 扩展 模型 一 一 隐 含 马尔 科 夫 模型 。 此 后 ， 您 将 研究 动态 贝 叶 斯 网 络 ， 正 如 
其 名 ， 这 是 贝 叶 斯 网 络 在 动态 模型 上 的 扩展 。 所 有 这 些 都 是 概率 编程 之 前 就 出 现 的 标准 
框架 。 它 们 都 假定 模型 的 结构 在 每 个 时 点 上 都 相同 。 概 率 编程 使 您 可 以 超越 这 些 框架 ， 
苗 述 结构 随时 变化 的 模型 ， 您 将 在 8.2.4 小 节 看 到 这 种 模型 。 
















































































8.2.1 马尔 科 夫 链 


























动态 系统 是 包含 随时 变化 状态 的 系统 ， 不 同时 间 的 状态 相互 关联 。 马 尔 科 夫 链 是 最 
简单 的 动态 系统 ， 有 两 方面 的 特性 : 首先 ， 状 态 由 单一 变量 组 成 。 其 次 ， 每 个 时 点 的 状 














态 变量 概率 依赖 于 前 一 时 点 的 变量 ， 但 不 是 之 前 的 任意 状态 变量 。 

图 8-1 展示 了 马尔 科 夫 链 用 于 足球 赛 的 一 个 例子 。 在 这 个 模型 中 ， 状 态 由 单一 变量 
组 成 ， 表 示 比 赛 中 的 某 个 特定 时 点 哪个 球 队 控 球 。 为 了 方便 起 见 ， 您 可 以 说 时 点 表示 比 
赛 中 的 每 一 分 钟 ， 但 是 它们 可 能 是 比赛 的 任何 一 部 分 。 


图 8-1 一 个 马尔 科 夫 链 。 某 一 时 点 的 状态 由 单一 变量 组 成 ， 该 变量 取决 于 前 一 时 间 的 变量 。 
Possession(1) 直 接 取决 于 Possession(0)，Possession(2) 直 接 取决 于 Possession(1)， 
依 此 类 推 ，Possession(n) 直 接 取决 于 Possession(n-1) 



























































问 | 
































观察 图 8-1， 您 会 看 到 箭头 顺序 地 从 一 个 状态 指向 下 一 状态 ， 这 说 明 : 

国 ”Possession(1) 直 接 取 决 于 Possession(0)。 

国 ”Possession(2) 直 接 取 决 于 Possession(1)， 但 不 取决 于 Possession(0)。 

图 ”Possession(0) 对 Possession(2) 的 任何 影响 都 通过 Possession(1) 中 介 。 

另 一 种 说 法 是 ,Possession(2) 在 Possession(1) 给 定 的 情况 下 条 件 独立 于 Possession(0)。 
对 于 未 来 的 时 点 也 是 如 此 : 在 前 一 时 点 的 控 球 状态 给 定 的 情况 下 ， 任 何 时 点 的 控 球 状 
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态 条 件 独 立 于 任何 更 早 时 点 的 控 球 状态 。 这 一 陈述 是 称 为 马尔 科 夫 假设 的 属性 的 一 个 
例子 。 


马尔 科 夫 假设 : 如 果 任 何 时 点 的 状态 仅 依赖 于 前 一 个 状态 ; 任何 时 点 的 状态 在 前 一 
个 状态 给 定 的 情况 下 条 件 独立 于 之 前 的 所 有 状态 ， 则 动态 概率 模型 满足 马尔 科 夫 假设 。 




















指定 一 个 马尔 科 夫 链 
创建 马尔 科 夫 链 需要 做 几 件 寻 








nil 


o 























1. 决定 状态 变量 的 值 。 这 包括 您 认为 在 任何 时 点 相关 的 所 有 变量 值 。 在 此 通常 应 


















































该 谨慎 ， 不 要 包含 不 必要 的 值 。 您 很 快 会 看 到 ， 马 尔 科 夫 链表 现形 式 的 大 小 是 状态 变量 
值 数量 的 二 次 方程 式 ， 所 以 要 避免 使 其 变 得 过 大 。 例 如 ， 您 可 能 有 一 个 用 于 足球 赛 的 马 
的 状态 变量 代表 分 差 。 原 则 上 ， 分 差 可 能 很 大 
进 球 ， 最 终 的 比分 可 能 是 90 : 0! 但 是 在 实践 中 ， 大 分 差 很 少见 ， 而 且 ，5 一 15 的 分 差 也 
不 合 逻 辑 ， 因 为 在 职业 足球 赛 中 ， 一 个 球 队 落 后 5 球 的 情况 很 少 。 所 以 您 可 以 将 分 差 限 


















































尔 科 夫 链 ， 其 
























































制 在 -5 一 +5 的 范围 内 。 
2. 完成 如 下 工作 之 一 。 








国 ”为 马尔 科 夫 链 指定 一 个 初始 值 ， 也 就 是 第 一 个 状态 变量 的 值 。 例 如 ， 足 球赛 开 


台 时 的 分 差 为 0。 



































如 果 任 一 分 钟 都 可 能 























时 指定 初始 值 上 的 一 个 分 布 。 如 果 您 不 知道 精确 信 









































， 这 就 是 必需 的 。 例 如 ， 球 赛 


开始 时 的 球 权 依 靠 括 硬币 决定 ， 所 以 每 个 球 队 控 球 的 概率 为 0.5。 





3， 指定 迁移 模型 。 迁 移 模 型 定义 一 个 时 点 的 状态 依赖 于 前 一 时 点 状态 的 形式 。 在 

















图 8-1 中 ， 迁 移 模 型 指定 了 在 给 定 Possession(0) 的 情况 下 Possession(1) 的 概率 、 给 定 
































Possession(1) 的 情况 下 Possession(2) 的 概率 …… 用 符号 表示 ,该 迁移 模型 指定 P(Possession(?) 


|Possession(t—1)) (1t 三 1)。 











在 第 3 步 中 ， 我 假设 所 有 不 同时 点 的 迁移 概率 都 相同 。 这 个 假设 不 是 对 所 有 马尔 科 

















夫 链 都 严格 需要 的 ， 但 是 很 实用 ， 因 此 在 大 部 分 应 用 中 都 使 用 。 利 用 这 个 假设 ， 可 以 一 


























个 简单 的 循环 定义 马尔 科 夫 链 。 



































您 将 会 发 现 ， 动态 模型 的 处 理 代价 可 能 很 高 。 动 态 模 型 表现 和 推理 的 复杂 度 主要 取 
决 于 状态 的 数量 。 在 马尔 科 夫 链 中 ,迁移 模型 中 的 参数 数量 是 状态 变量 值 数量 的 二 次 方 



































程式 。 在 我 们 的 例子 中 ,迁移 模型 指定 P(Possession(n) | Possession(f - 1))。 这 是 一 个 条 件 















































概率 分 布 , 可 以 由 指定 Possession(1 一 1) 和 Possession() 的 所 有 值 概率 的 表格 定义 。 表格 
































中 的 条 目 数量 是 Possession 变量 可 能 值 数量 的 平方 。 
在 Figaro 中 使 用 马尔 科 夫 链 

































































如 果 您 预先 知道 时 间 步 的 总 数 ， 在 Figaro 中 描述 一 个 














马尔 科 夫 链 很 容易 。 如 果 不 知 


道 时 间 步 的 总 数 ， 系 统 可 能 无 限 运 行 ， 就 需要 更 高 级 的 技术 , 这 些 技术 在 8.3 节 中 介绍 。 
但 是 ， 如 果 您 知道 时 间 步 总 数 ， 可 以 编写 一 个 简单 的 循环 。 























下 面 是 定义 图 8-1 中 的 马尔 科 夫 链 的 代码 : 
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程序 清单 8-1 马尔 科 夫 链 规格 





连 的 长 
val length = 90 < | 链 的 长 度 
val ourPossession: Arrayl[Element [Boolean]] = 状态 变量 数组 ， 
Array.fill (length) (Constant (false)) 个 时 间 步 个 
十 间 | 步 一 


3S 的 初始 状 太 设 
ourPossession(0) = Flip(0.5) lA 
for { minute <- 1 until lengthn } { 置 分 布 


ourPossession(minute) = 











If (ourPossession (minute - 1), Flip(0.6)， Flip (0.3)) 迁移 模型 根据 序列 中 的 前 一 
个 状态 ， 定 义 了 每 个 状态 变 
量 的 分 布 
首先 将 序列 的 长 度 设置 为 90 分 钟 。 然 后 ， 创 建 一 个 数组 ， 对 于 0~89 的 每 个 时 点 











有 一 个 元 素 ， 该 元 素 是 一 个 布尔 状态 变量 , 表示 您 的 球 队 是 否 控 球 。Scala 方法 Array.fill 
创建 一 个 数组 , 长 度 由 第 一 个 参数 (length ) 给 定 , 每 个 元 素 的 值 初始 化 为 Constant(false) 
元 素 。 这 个 初始 值 并 不 重要 ， 因 为 您 很 快 就 将 覆盖 它 。 
接 下 来 ， 定 义 球 队 在 时 点 0 是 否 控 球 的 概率 分 布 。 您 已 经 选择 用 Flip(0.5) 定 义 ， 所 
以 在 初始 时 间 点 控 球 的 概率 为 0.5。 
接 下 来 是 从 时 点 1 到 时 点 89 的 一 个 循环 。 在 每 个 时 点 ， 根 据 前 一 时 点 是 否 控 球 ， 
定义 该 时 点 是 否 控 球 。 确 切 地 说 ， 如 果 您 在 前 一 时 点 控 球 ， 继 续 控 球 的 概率 为 0.6， 如 
果 前 一 时 点 没有 控 球 ， 此 时 夺 得 球 权 的 概率 为 0.3。 
您 可 以 查询 这 个 马尔 科 夫 模型 ， 根据 任何 时 点 的 观测 值 ， 得 出 任意 时 点 状态 变量 的 
概率 分 布 。 例 如 ， 假 定 您 打算 查询 时 间 步 5 时 控 球 的 概率 。 可 以 调用 如 下 函数 ， 询 问 观 
察 到 任何 证 据 之 前 的 概率 : 


VariableElimination.probabilityl(ourPossession(5), true) 


这 将 返回 时 间 步 5 时 您 的 球 队 控 球 的 先 验 概 率 一 0.428745。 
然后 ， 可 以 用 如 下 代码 观察 时 间 步 4 时 您 的 球 队 控 球 的 情况 : 


ourPossession(4) .observe (true) 


相同 的 查询 此 时 返回 0.6。 可 以 看 到 ， 在 得 知 前 一 时 间 步 您 的 球 队 控 球 的 情况 下 ， 这 一 
概率 有 所 增 大 。 实 际 上 ， 这 个 概率 就 是 在 一 个 时 间 步 中 保持 控 球 的 概率 。 

如 果 您 观察 到 在 时 间 步 3 时 ， 球 队 也 控 球 ， 那 么 会 发 生 什 么 呢 ? 查询 该 模型 ， 仍 然 
返回 您 在 第 5 步 控 球 的 概率 为 0.6。 新 的 观测 值 没 有 改变 这 一 概率 。 这 是 因为 马尔 科 夫 
假设 : 在 时 间 步 4 是否 控 球 已 经 确定 的 情况 下 ， 在 时 间 步 5 是 否 控 球 独立 于 时 间 步 3 是 
否 控 球 。 

您 也 可 以 观察 时 间 步 6 拥有 球 权 的 情况 。 这 说 明 不 仅 可 以 通过 马尔 科 夫 链 向 前 预测 
未 来 ， 也 可 以 从 未 来 的 观测 值 中 向 后 推导 出 之 前 的 状态 。 在 添加 这 一 观测 值 之 后 ， 您 在 
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建 模 





时 间 步 5 控 球 的 概率 上 升 到 0.75。 


最 后 ， 


这 是 马尔 科 夫 假设 的 另 一 个 实例 。 
5 分 钟 的 查询 增添 任何 


证 据 不 会 为 第 


您 观察 到 在 时 间 步 7 时 球 队 也 控 球 。 答 案 仍然 是 0.75〔 在 舍 入 误差 范围 



































新 信息 。 























的 











几 个 小 节 讨 








马尔 科 夫 链 是 动态 概率 模型 
说 明 这 些 模型 。 


4 的 最 





8.2.2” 隐 含 马尔 科 夫 模型 











8-2 








马尔 科 夫 模型 


te “ 隐 含 ”状态 ， 另 一 个 表示 某 个 观测 值 。 轿 





























在 第 6 分 钟 的 情况 已 知之 后 ， 在 第 7 


简单 情况 ,但 是 为 更 强大 的 模型 


分 钟 是 


Ml 省 

















J 提供 了 基础 ， 下 症 



































I (HMM) 是 马尔 科 夫 链 的 扩展 ， 每 个 时 间 点 存在 














8-2 展示 了 HMM 的 一 个 例子 。 





























合 状 态 表 不 您 的 球 队 古 入 个 时 点 是 否 自 信 。 您 从 未 真正 知道 球 队 是 否 自信 ， 必 须 从 场 
ev 情况 推断 。 这 就 是 它 成 为 隐 含 状态 的 原因 。 可 以 直接 观察 到 的 观测 值 是 “是 


否 控 球 ”。 


一 个 隐 含 马尔 科 夫 模型 。Confident ( 自信 ) 是 一 个 隐 含 状态 变 
个 观测 值 。 隐 含 状态 变量 形成 一 个 马尔 科 夫 链 ， 观 测 值 只 依赖 于 





[= 


里 ， 


该 时 点 的 隐 含 状态 





从 图 8-2， 可 以 看 出 HMM 满足 两 个 假设 。 
四 隐 含 状态 形成 了 一 个 满足 马尔 科 夫 假设 的 马尔 科 夫 链 。 
国 。 某 个 时 点 的 观测 值 仅 依赖 于 当时 的 隐 





观测 值 独立 于 之 前 的 所 有 隐 
这 还 意味 着 ， 在 前 一 个 隐 含 状态 给 定 的 情况 下 ， 特 定时 点 的 隐 
个 要 点 必须 说 明 。 按 照 假设 ， 前 
含 状态 ， 当 前 隐 


前 的 观测 值 。 但 是 有 一 





以 您 通常 不 能 够 确 知 。 如 果 不 知道 前 一 个 隐 
值 。 例 如 ， 在 图 8-2 中 ， 





独立 于 Confident(2)。 





上 述 要 点 对 于 理解 HMM 的 实用 性 和 强大 表现 力 是 必 不 可 少 的 。 





人 们 全 MM 
整个 观测 值 序列 推 


旺 


























过 


用 Figaro 描述 一 个 HMM 


知道 如 何 描述 马尔 



































含 状态 。 在 某 个 时 点 的 隐 含 状态 给 定时 ， 
含 状态 和 观测 值 。 


























表现 形式 更 加 紧凑 ， 推 理 更 加 高 效 。 与 此 同时 ， 它 们 不 会 妨碍 您 
断 隐 含 状态 。 
科 夫 链 之 后 ， 描 述 HMM 也 不 是 太 复杂 。 您 需要 做 以 下 的 工作 。 


两 个 变量 


Possession ( 控 球 ) 表示 一 


含 状态 独立 于 所 有 之 
个 隐 含 状态 是 “ 隐 含 ”的 ， 所 
Eh 立 于 之 前 的 观测 
如 果 没 有 观察 到 Confident(0) 或 Confident(1)，Possession(0) 不 


前 面 的 两 个 假设 很 
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;定义 一 含 状态 变量 值 。 在 我 们 的 例子 中 ，Confident 可 能 是 一 个 布尔 变量 。 
ee ey 表现 形式 的 大 小 是 隐 含 状态 变量 值 数 量 的 二 次 
方程 式 。 





2. 定义 一 组 观测 变量 值 。 在 我 们 的 例子 中 ，Possession 也 可 能 是 一 个 布尔 变量 ， 表 
示 特 定时 点 我 们 的 球 队 是 否 控 球 。 因 为 观测 变量 依赖 于 隐 含 状态 而 不 是 前 一 个 观测 值 ， 
表现 形式 的 大 小 将 与 隐 含 状态 值 数 量 和 观测 值 数量 的 乘积 成 正比 。 

3. 定义 初始 隐 含 状态 上 的 一 个 概率 分 布 。 这 被 称 作 初始 模型 。 在 我 们 的 例子 中 ， 
这 将 指定 P(Confident(0))。 

4. 定义 隐 含 状态 变量 的 迁移 模型 ， 表 示 给 定 前 一 时 点 情况 下 ， 状 态 变 量 在 某 个 时 
点 的 条 件 分 布 。 在 我 们 的 例子 中 ， 这 将 指定 PCConfident(D | Confident(1 - 1))。 

5. 定义 观测 模型 ， 指 定 在 该 时 点 隐 含 状态 变量 给 定 的 情况 下 ， 任 何 时 点 观测 变量 
上 的 条 件 概 率 分 布 。 在 我 们 的 例子 中 ， 这 将 指定 P(Possession(?) | Confident(1))。 
下 面 的 程序 清单 说 明了 上 述 步 又 在 代码 中 的 实现 。 


程序 清单 8-2 HMM 规格 


val length = 90 





































































































隐 含 状态 变量 数组 ， 
val confident: Arrayl[Element [Boolean]] = 个 时 间 步 一 个 
Array.fill (length) (Constant (false)) 
设置 序列 初 val ourPossession: Arrayl[Element [Boolean]] = 观 测 变量 数 双 每 个 隐 
公信 -小 太 - 岗 测 变量 数组 ， 每 个 攻 
始 隐 含 状态 Array.fill (length) (Constant (false)) 合 ) 太 恋 量 一 个 
|_ confident (0) = Flip(0.4) 
for { minute <- 1 until lengtnhn } { 
confident (minute) = If(confident (minute - 1), Flip(0.6), Flip(0.3) 


a AA 


根据 序列 中 前 一 个 隐 含 状态 ， 定 义 每 
个 隐 含 状态 变量 分 布 的 迁移 模型 





for { minute <- 0 until Length } { 
ourPossession (minute) = If(confident (minute), Flip(0.7), Flip(0.3)) 
} // 


在 对 应 的 隐 含 状态 变量 给 定 的 情况 下 
定义 每 个 观测 变量 分 布 的 观测 值 模型 


当 您 从 观测 值 推断 某 个 时 点 的 隐 含 状态 时 ， 可 以 考虑 3 类 观测 值 : 当前 观测 值 、 之 
前 的 观测 值 和 未 来 的 观测 值 。 未 来 的 观测 值 听 起 来 很 荒 廖 ， 怎 么 可 能 观察 到 未 来 ? 我 的 
意思 是 可 以 根据 从 某 个 时 点 开始 到 现在 为 止 接收 到 的 观测 值 ， 推 导 较 早 时 点 的 隐 含 

态 。 从 较 早 的 时 间 点 看 来 ， 这 些 就 是 未 来 的 观测 值 。 
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如 前 所 述 , 推断 隐 舍 状态 需要 考虑 所 有 观测 值 , 而 不 仅仅 是 当前 和 最 邻近 的 观测 值 。 
这 可 以 由 我 们 的 程序 中 的 如 下 查询 说 明 。 


程序 


prinmel 
printl 











清单 8-3 HMM 查询 
n("Probability we are confident at time step 2") 
n("Prior probability: " 十 


VariableElimination.probability (confident (2), true)) 


ourPossession(2) .observe (true) 


DEintl 
VariableElimination.probability(confident (2), true)) 


n("After observing current possession at time step 2: "+ 


ourPossession(1) .observe (true) 


print] 


print] 


tr] 





print] 





n("After observing previous possession at time step 1: "+ 


VariableElimination.probability (confident (2), true)) 
ourPossession(0) .observe (true) 


n("After observing previous possession at time step 0: "+ 


VariableElimination.probability (confident (2), true)) 
ourPossession(3) .observe (true) 


n("After observing future possession at time step 3: " 十 


VariableElimination.probabilityl(confident (2), true)) 
ourPossession(4) .observe (true) 


n("After observing future possession at time step 4: "+ 








VariableElimination.probabilityl(confident (2), true)) 








行 上 述 程 序 打印 如 下 结果 : 


Probability we are confident at time step 2 


PricR 
After 
After 
After 
After 
After 


probability: 0.42600000000000005 

Observing current possession at time step 2: 0.6339285714285714 
Observing previous possession at time step 1: 0.6902173913043478 
Observing previous possession at time step 0: 0.7046460176991151 
Observing future possession at time step 3: 0.7541436464088398 
observing future possession at time step 4: 0.7663786503335885 


可 以 看 到 ， 每 个 观测 值 都 增 大 了 对 时 间 步 2 时 “ 球 队 自信 ”的 置信 和 度 。 


8.2.3 ”动态 贝 叶 斯 网 络 


尽管 HMM 在 从 一 系列 观测 值 推断 隐 含 状态 这 方面 很 强大 ,但 是 它们 仍然 是 在 每 个 























时 点 只 使 用 两 个 变量 的 简单 表现 形式 。 一 般 来 说 ， 您 感 兴趣 的 变量 可 能 很 多 ， 它 们 可 能 
以 不 同方 式 相 互 依赖 。 动 态 贝 叶 斯 网 络 (DBN ) 是 HMM 服务 于 这 一 需求 的 推广 。 它 们 














Mr 


米 
变量 ， 








和 HMM 相同 的 原型 


























建立 随时 间 变 化 的 一 系列 变量 的 模型 ， 但 是 可 以 有 许多 个 
各 个 变量 之 间 可 以 有 趣 的 方式 相互 依赖 。 





[ys 














图 8-3 展示 了 一 个 用 于 足球 赛 的 DBN 示例 。 顾 名 思 义 ，DBN 类 似 于 贝 叶 斯 网 络 ， 


包含 的 内 容 也 相似 。 
DBN 有 如 下 内 容 。 


]. 














每 个 时 点 的 一 组 状态 变量 。 在 图 8-3 中 有 如 下 变量 : 





















ScoreDiff(0) 
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Possession(1) Possession(2) 














和 8-3 ”一 个 动态 贝 叶 斯 网 络 。 每 个 时 点 存在 多 个 变量 。 某 个 时 点 的 变量 可 能 依赖 于 该 时 点 的 其 他 变量 ， 


国 路 








或 者 前 一 时 点 的 变量 


Winning， 表 示 目 前 领先 的 球 队 。 

Confident， 表 示 您 的 球 队 是 否 自信 。 

Possession， 表 示 您 的 球 队 是 否 控 球 。 

Goal， 表 示 在 那个 时 点 是 否 进 球 。 

ScoreDiff， 表 示 两 个 球 队 之 间 的 分 差 。 

每 个 变量 有 一 组 变量 值 。 在 我 们 的 例子 中 : 

Winning 可 能 为 “us”( 我 方 )、“them”( 对 方 ) 或 者 “none”( 无 )。 
Confident 是 一 个 布尔 变量 。 

Possession 是 布尔 变量 。 
Goal 是 布尔 变量 。 
ScoreDiff 是 从 -5 到 5 的 整数 。 

一 个 迁移 模型 ， 包 括 : 

每 个 变量 的 一 组 父 变量 。 这 些 父 变量 可 以 是 同一 时 间 步 的 其 他 变量 ， 或 者 前 一 
时 间 步 的 变量 。 父 变量 的 唯一 限制 是 (1) 边 不 能 穿 过 超过 一 个 时 间 步 ，(2) 和 
贝 叶 斯 网 络 中 一 样 ， 边 不 能 形成 有 向 环 。 在 我 们 的 例子 中 ， 有 如 下 依赖 性 。 
您 在 某 个 时 点 是 否 领先 (Winning) 依赖 于 前 一 时 点 的 ScoreDift。 

您 在 某 个 时 点 是 否 自 信 (Confident) 依赖 于 谁 目 前 领先 〈Winning) 和 之 
前 是 否 自信 。 

一 一 是 否 控 球 (Possession) 依赖 于 您 目前 是 否 自信 。 


] 
一 一 任 一 方 是 否 进 球 〈Goal) 依赖 于 您 是 否 控 球 和 您 的 自信 。 
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一 一 新 的 ScoreDiff 由 前 一 个 ScoreDiff、 是 否 有 一 个 进 球 (Goal) 和 哪 一 方 进 
球 ( 由 您 是 否 控 球 决定 ) 决定 。 

田 ”对 于 每 个 变量 ， 有 一 个 条 件 概率 分 布 (CPD) 规定 每 个 父 变 量 值 上 的 概率 分 布 。 
在 我 们 的 例子 中 ，CPD 如 下 。 
一 一 Winning 显然 由 之 前 的 ScoreDiff 决定 。 
一 一 Confident 的 CPD 规定 ， 如 果 您 领先 (Winning) 且 之 前 是 自信 的 ， 那 么 您 
就 更 有 可 能 自信 。 
一 一 Possession 的 CPD 规定 ， 如 果 您 自信 ， 就 更 有 可 能 控 球 。 
一 一 Goal 的 CPD 规定 ， 如 果 球 队 控 球 且 自信 ， 就 更 有 可 能 进 球 。 这 意味 着 ， 
如 果 您 控 球 且 自 信 ， 或 者 您 没有 控 球 且 不 自信 ， 就 更 有 可 能 出 现 进 球 。 
一 一 新 的 ScoreDiff 是 前 一 个 ScoreDiff、 是 否 进 球 和 是 否 控 球 〈 这 决定 了 您 或 
者 对 方 是 否 进 球 ) 的 确定 性 函数 。 

4. 指定 初始 时 间 点 变量 概率 分 布 的 初始 模型 。 一 般 来 说 ， 这 是 初始 变量 上 的 一 个 




































































































































































常规 贝 叶 斯 网 络 。 但 是 您 只 需要 对 下 一 时 点 有 影响 的 变量 上 的 分 布 ， 就 可 以 推动 DBN 
运行 。 在 我 们 的 DBN 中 ， 这 些 变 量 是 Confident(0) 和 ScoreDiff(0)。 


图 





图 





























从 上 述 列表 中 可 以 看 到 ，DBN 规格 的 主要 内 容 在 迁移 模型 中 。 一 般 来 说 ， 它 不 像 
8-3 那样 展示 变量 的 时 间 序 列 ( 图 中 展示 了 时 间 点 0、1、2 等 的 变量 )， 而 是 展示 时 






































间 步 和 前 一 时 间 步 之 间 的 关系 。 这 种 关系 称 作 两 个 时 间 步 的 贝 叶 斯 网 络 ， 简 称 2TBN。 





8-4 展示 了 我 们 的 示例 中 的 2TBN。 


Winning®) 


Confident(?) 


Possession(/) 


ScoreDiff(?) 














图 8-4 一 个 包含 两 个 时 间 步 的 贝 叶 斯 网 络 ( 2TBN )。 这 个 2TBN 展示 了 时 间 步 t 的 
变量 和 它们 与 时 间 步 £1 的 依赖 性 








从 图 中 可 以 看 出 , 与 常规 贝 叶 斯 网 络 类 似 , 2TBN 中 的 变量 是 时 间 步 + 和 二 1 的 状态 变量 。 








吧 | 


唯一 的 区 别 是 ， 时 间 步 
和 分 布 。2TBN 是 之 前 


8.2 动态 模型 类 型 





1 的 变量 没有 父 变量 ， 也 没有 CPD; 只 定义 了 时 间 步 
i 述 的 DBN 迁移 模型 的 一 种 编码 ， 通 























在 Figaro 中 描述 DBN 


您 已 经 





框架 的 组 合 














知道 如 何在 Figaro 中 
， 所 以 您 已 经 有 了 描述 它 的 必要 技术 。 




















; 述 常规 的 贝 叶 斯 网 络 和 HMM。 因 为 DBN 是 这 两 种 
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f 的 变量 依赖 性 


通常 也 是 DBN 的 描述 手段 。 





程序 清单 8-4 8-3 中 DBN 的 Figaro 实现 
val length = 91 
val winning: Arrayl[lElement [String]] = Array.fill (length) (Constant ("")) 
val confident: Arrayl[lElement [Boolean]] = 


Array.fill (length) (Constant (false)) 

val Array [Element [Boolean]] = 

Array.fill (length) (Constant (false)) 

goal: 

Array.fill (length) (Constant (false)) 

val Array [Element [Int]] 
Array.fill (length) (Constant (0)) 


ourPossession: 


val Array[Element [Boolean]] = 





scoreDifferential: 


confident (0) = 
scoreDifferential(0) = 


Flip(0.4) 
Constant (0) 


创建 Figaro 元 素 ， 


在 每 个 时 间 
点 创建 5 个 
状态 变量 的 


数组 





和 scoreDifferential 的 初始 值 

















for { minute <- 1 until length } { 
winning (minute) = 
Apply (scoreDifferential (minute - 1), (i: Int) => 
if (i > 0) "us" else if (i < 0) "them" else "none") 

该 循环 定义 confident (minute) = 
每 个 时 间 点 CPD(confident (minute - 1), winning (minute), 
的 迁移 ,迁移 (true, "us") -> Flip(0.9), 
模型 规定 5 (true, "none") -> Flip(0.7), 
个 状态 变量 (true;, "them”) => FLIip(055)s 
如 何 依赖 于 (falsey "Us™} =—% FILD(O.S)y 
之 前 的 自 信 (false, "none") -> EC 

(false, "them") -> Flip(0.1)) 
状态 和 分 差 ourPossession(minute) = If(confident (minute), Flip(0.7), Flip(0.3)) 
( ScoreDiffer- goal (minute) = 
ential )。 CPD (ourPossession(minute), confident (minute), 
闵 量 也 依赖 (true, true) -> Flip(0.04), 
于 循环 中 较 (true, false) -> Flip(0.01), 
时 好 变量 , 例 (false, true) -> Flip(0.045), 
如 ， confident (false false) -> Flip(0.02)) 

一 scoreDifferential (minute) = 
依赖 于 同一 时 If (goal (minute), 
点 的 winning Apply (ourPossession (minute), scoreDifferential (minute — 1), 
(poss: Boolean, diff: Int) => 
if (Poss) (diff + 1) .min(5) else (diff - 1) .max(-5)), 
scoreDifferential (minute — 1)) 








表示 Confident 
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您 可 以 使 用 DBN 模型 进行 各 种 查询 。 例如， 您 可 以 根据 当前 状态 预测 比赛 的 未 来 ， 
或 者 推断 导致 当前 结果 的 前 一 状态 。 对 于 足球 教练 (或 者 赌球 者 ) 来 说 ， 实 用 的 用 法 之 
一 是 预测 谁 能 赢得 比赛 。 如 果 在 前 一 个 程序 中 查询 最 后 的 scoreDifferential 变量 , 就 可 以 
得 出 赢 下 比赛 的 概率 大 约 为 0.4。 但 是 如 果 观 察 到 您 的 球 队 在 第 4 分 钟 获得 一 个 进 球 ， 
该 概率 就 会 上 升 到 大 约 0.73。 













































































8.2.4 结构 随时 间 改 变 的 模型 


迄今 为 止 您 所 看 到 的 3 类 模型 一 一 马尔 科 夫 链 、 隐 含 马尔 科 夫 模型 和 动态 贝 叶 斯 网 
络 一 一 是 标准 素材 。 它 们 包含 了 一 组 固定 结构 的 固定 变量 。 概 率 编程 为 您 提供 处 理 更 高 
级 模型 的 能 力 ， 这 种 模型 中 的 状态 结构 可 能 随时 间 而 变化 。 

例如 ， 想 象 一 位 饭店 老板 想 要 知道 某 个 晚上 饭店 的 客 满 情况 ， 这 可 能 帮助 她 做 出 各 
种 决定 ， 比 如 制作 多 少食 物 、 鼓 励 客户 逗留 还 是 快速 离开 ,等 等 。 饭 店 是 涉及 客户 进 店 、 
享用 晚餐 和 离开 的 动态 系统 。 该 系统 的 状态 可 能 由 目前 店 中 客人 数 和 他 们 已 经 停留 的 时 
间 以 及 等 座 客 人 数量 等 组 成 。 因 为 客人 的 数量 随时 间 而 变化 ， 状 态 的 结构 也 随 之 变化 。 
而 且 ， 您 无 法 预先 知道 任何 时 点 的 结构 ; 在 任何 给 定 的 时 点 ， 您 必须 考虑 许多 种 可 能 的 
结构 。 


使 用 概率 编程 建立 可 变 结构 系统 的 模型 


j 概 率 编程 建立 此 类 系统 模型 的 最 简单 方法 是 创建 一 组 状态 变量 ， 这 些 变量 的 类 型 
是 可 变数 据 结构 。 在 我 们 的 例子 中 〔 如 图 8-5 所 示 )， 可 以 有 两 个 状态 变量 。 
国 ”Seated 代表 目前 在 饭店 中 就 坐 的 客人 ， 以 及 他 们 在 此 停留 的 时 间 。 其 数据 类 型 
是 整数 的 列表 。 列 表 的 长 度 是 当前 就 坐 的 客人 数量 ， 每 个 整数 代表 某 位 客人 已 

经 就 坐 的 时 间 。 

加 ”Waiting 代表 当前 等 座 的 客人 数量 ， 这 是 一 个 简单 的 整数 。 
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Waiting(5) 


3 





图 8-5 ”变量 结构 随时 变化 的 动态 模型 。 每 个 状态 变量 展示 了 3 个 可 能 值 。Seated 变量 的 可 能 值 是 变 长 数组 


用 这 些 丰富 数据 类 型 的 状态 变量 建立 模型 之 后 ， 该 模型 就 像 一 个 DBN， 可 以 用 类 似 的 
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方法 编码 。 但 是 ， 需 要 一 些 额 外 的 技术 以 处 理 丰富 数据 类 型 的 变量 。 我 们 逐步 地 建立 模型 。 
首先 ， 设 置 饭店 的 容量 和 运行 模型 的 步骤 数量 。 为 了 简单 ， 假 设 饭店 有 10 张 同等 
大 小 的 桌子 ， 每 组 客人 占用 一 张 桌 子 ， 所 以 容量 为 10。 此 外 ， 假 定 您 以 5 分 钟 为 一 个 时 
间 步 进行 推理 ， 为 期 1 个 小 时 ， 所 以 步 数 为 12。 


val numSteps 



































于 多 
10 


val capacity 


对 于 前 面 描述 的 两 个 状态 变量 ， 各 用 一 个 数组 表示 不 同时 间 的 变量 值 ， 每 个 变量 都 
有 对 应 的 类 型 。 所 以 ， 每 个 seated 变量 是 Element[List[Int]]，waiting 则 为 Element[Int]: 












































val seated: Array [ElLement [List[Int]]]= 
Array.fill (numSteps) (Constant (List ())) 
val waiting: Arrayl[lElement [Int]] = Array.fill (numSteps) (Constant (0)) 


本 例假 定 饭店 老板 从 晚上 茶 个 已 知 状态 的 时 点 开始 ， 所 以 您 将 使 用 Figaro 的 Constant 
结构 将 状态 变量 的 初始 值 设 置 为 已 知 值 。 在 初始 时 点 ， 饭 店 已 经 客 满 ， 有 人 正在 等 位 。 


deated(0) = Constant (List (Or 5 15 二 5 
waiting(0) = Constant (3) 


表现 迁移 模型 
下 面 进入 有 趣 的 部 分 了 : 迁移 模型 。 您 将 分 两 个 步骤 编写 该 模型 。 首 先 ， 编 写 迁 移 
模型 的 骨架 ， 然 后 完善 细节 。 下 面 是 迁移 模型 的 骨架 。 


































































































程序 清单 8-5 ”可 变 结构 的 动态 模型 一 -代码 骨架 





def transition(seated: List[Int], waiting: Int) : 


(Element [(List[Int], Int)]) = { 定义 一 个 迁移 函数 ， 以 之 前 的 状态 
// details go here i \ 态 恋 量 
“~ (allSeated, newWaiting) 变量 为 参数 , 返回 新 状态 变量 上 的 


. 联合 概率 分 布 














for { step <- 1 until numSteps } { 
val newState = 











前 几 个 状态 变量 上 的 分 布 生成 
状态 变量 上 的 联合 分 布 








Chain(seatedl(step - 1)，waiting(step - 1), 
(lt TistkLlIint], .1nt) =» transitiontl; 1)) 





党 


seated(step) = newState._ 1 从 这 个 联合 分 布 提取 新 
waiting(step) = newState._2 的 状态 变量 


} 
































仔细 观察 这 段 代码 ， 因 为 它 展示 了 一 种 通用 的 模式 。 您 可 能 不 知道 马尔 科 夫 链 中 的 
“ 链 ” 和 Figaro 的 链接 有 何 相关 。 两 者 之 间 存 在 紧密 的 联系 。 目 前 我 们 还 没有 注意 到 这 
一 点 , 但 是 , 从 一 个 时 间 步 到 下 一 个 时 间 步 的 状态 变量 链接 可 以 用 Figaro 的 Chain 实现 。 
还 记得 吗 ? Chain 取得 父 变 量 上 的 一 个 概率 分 布 、 从 父 变 量 到 子 变量 的 CPD， 生 成 子 变 
量 上 的 一 个 概率 分 布 。 在 马尔 科 夫 链 中 ， 父 变量 是 possession(t - IJ) 之 类 的 变量 ， 而 子 变 
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量 是 possession(0 之 类 的 变量 ，CPD 则 是 迁移 模型 ， 在 possession(t - 1) 给 定 的 情况 下 提 
供 possession(t) 上 的 概率 分 布 。 所以, 要 得 到 possession(t) 上 的 分 布 , 可 以 编写 如 下 代码 : 


Chain(possession(t - 1), transitionModel) 


上 述 代码 使 用 了 类 似 的 逻辑 .您 拥有 时 间 step-1 的 状态 , 该 状态 由 seated(step -1) 和 
waiting(step -= 1) 组 成 。 迁移 函数 取得 seated 和 waiting 的 特定 值 ， 生成 下 一 状态 上 的 一 个 
元 素 ， 该 元 素 是 一 对 List[Int] (用 于 seated) 和 Int (用 于 waiting)。 便 Chain， 从 当前 
状态 获得 下 一 状态 上 的 元 素 。 

下 一 个 状态 是 一 对 seated 和 waiting 值 上 的 元 素 。 它 定义 了 新 时 间 步 上 seated 和 
waiting 变量 的 联合 分 布 。 在 迁移 函数 中 ,这 个 元 素 使 用 Figaro 的 从 构造 程序 构造 ， 该 程 
序 从 单独 元 素 创 建 对 组 〈 或 者 更 大 的 元 组 ) 上 的 元 素 。 在 这 个 迁移 函数 中 ， 这 些 元 素 是 
allSeated 和 newWaiting， 您 很 快 会 看 到 它们 是 如 何 生成 的 。 

最 后 ， 链 接 的 结果 是 一 对 变量 上 的 元 素 。 您 应 该 从 这 个 配对 中 取出 单独 的 seated 和 
waiting 元 素 ， 使 用 Figaro 的 -1 和 _2 提取 操作 可 以 实现 。_1 取得 一 个 配对 上 的 元 素 ， 
创建 第 一 个 成 分 上 的 元 素 ，_2 的 功能 也 类 似 。 

下 面 是 详细 的 迁移 函数 。 















































































































































程序 清单 8-6 ”可 变 结构 的 动态 模型 一 一 迁移 函数 细节 


def transition(seated: List[Int], waiting: Int) : 









































newTimes 是 (Element[ (List[Int], Int)]) = { | 
一 个 Blement val newTimes: List[Element [Int]] = 间 - 表示 他 们 正 
[mg 的 列表 。 for { time <- seated } 离开 发 生 的 概 
您 需要 将 yield Apply (Flip(time / 80.0)， 这 六 ee 
其 转换 为 (b: Boolean) => if (b) -1 else time + 5) 
Flement [List 
[Ind] ,这 通过 一 二 val newTimesListElem: Element [List[Int]] = Inject (newTimes:_*) 
eet 和 val staying = Apply (newTimesListElem, 删除 所 有 就 坐 时 
(1: List[Int]) => 1.filter(_ >= 0)) 间 小 于 0 的 客人 ， 
确定 将 要 离开 的 
val arriving = Poisson (2) 客人 数量 
val totalWaiting = Apply (arriving, (i: Int) => i + waiting) 
val placesOccupied = 
确定 到 达 饭 Apply (staying, (1: List [Int]) => 1.length.min(capacity)) 
店 的 人 数 ,得 val placesAvailable = 确定 等 位 的 客 
出 等 待人 数 Apply (placesOccupied, (i: Int) => capacity - i) 人 中 可 以 就 坐 
val NS Ye or og = | 的 人 数 
Apply (totalWaiting, placesAvailable, 
(tw: Int, pa: Int) => tw.min (pa)) 








val newlySeated = 


Apply (numNewlySeated, 


8.2 ”动态 模型 类 型 


Cus 
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Int) => List.fill(i) (0)) 





定 新 的 就 从 
val allSeated = 确定 新 的 就 坐 
ad 1 = 
Apply (newlySeated, staying, 客人 列 寺 
tl Tiottintl TZ2+. Lietl LIne]y = Ll ss 2) 
val newWaiting = Apply (totalWwaiting, numNewlySeated, 确定 新 的 等 位 
(tw: Int, ns: Int) => tw - ns) 客人 数量 


^^(allSeatedq，newWaitingy) 





大 











释 。 








为 这 段 代码 使 / 
晶 是 有 一 个 功能 值得 注意 
表 元 素 。 这 是 什么 意思 呢 ? 假 定 您 有 一 个 
第 一 个 元 素 为 5， 第 二 个 为 10， 

















| 的 大 


























部 分 都 是 您 


返 





回 在 一 对 新 等 位 客人 列表 








和 等 待 客人 数 上 的 元 素 








您 





已 经 了 解 的 Figaro 功能 ， 所 以 我 就 不 再 详 加 解 














: Figaro 的 Inject 元 素 可 以 将 一 个 元 素 列 表 转 换 为 一 个 列 




















Element[Int] 组 成 的 列表 。 一 组 可 能 值 为 : 
第 三 个 为 15。 您 可 以 将 这 些 元 素 转 换 为 包含 数值 5、10 























和 15 的 列表 。 在 这 种 情况 下 ，Injectd) 将 为 List(5, 10, 15)。 








这 有 什么 用 呢 ? 在 我 
于 单个 元 素 。 而 














操作 适 | 
整体 的 列表 




















概率 模型 很 相似 。 同 样 ， 您 可 以 使 ) 


8.3 节 介 绍 使 用 
一 般 来 说 ， 





能 值 的 数量 很 大 。 在 饭店 的 例 
的 数 。 (一 旦 就 坐 时 间 达 到 75， 
的 就 多 





10 个 座位 
































门 的 模型 ， 
他 操作 (如 确定 
。 这 时 候 需 要 列表 上 的 元 素 ，Inject 可 以 提供 。 
利用 模型 进行 推理 

利用 这 个 模型 进行 推理 

















， 全 














定 客人 就 坐 的 新 时 间 以 及 客人 是 否 将 要 离开 等 








[> 
税 国 














您 可 能 不 会 使 用 变量 消除 法 或 者 置信 传播 等 因子 分 解 算法 。 状 态 变 量 可 























的 客人 列表 ) 则 适合 于 将 所 有 客人 作为 






































没有 太 多 值得 说 明 的 地 方 ， 它 和 您 前 面 已 经 了 解 的 几 类 动态 
该 模型 预测 未 来 ， 或 者 推断 观察 到 的 事件 的 根源 。 
相同 的 模型 随时 监控 饭店 状态 的 方法 。 







































































了 

















， 每 个 可 能 的 就 





坐 时 间 是 0 和 75 之 间 





可 以 被 5 整除 





客人 在 下 一 时 间 步 表 定 会 离开 ) 这 就 产生 了 16 种 可 能 值 。 


























造成 的 组 合 太 多 ， 无 法 一 一 列举 。 














丸 此 ， 抽 档 



































座 的 人 数 。 下 


算法 工作 得 更 好 。 本 例 使 用 
四 是 代码 : 

















EE 时间 列表 数量 为 16"。 您 还 需要 考虑 客人 数量 少 了 




















val alg = Importance (10000, waiting (numSteps 一 


alg.sStatrt() 
Println(aldg. 





probability (waiting (numSteps - 1)， 





《二 二 Tn) 





、 


这 样 











10 个 的 情况 。 





样 预测 下 一 小 时 的 最 后 进入 饭店 等 


=> i > 4) 





运行 这 段 代 码 产 生 0.4693 左右 的 数值 ， 这 意味 着 这 
的 概率 大 约 为 47%。 





























小 时 的 最 后 等 位 的 人 数 大 于 4 











现在 ,您 已 经 看 到 了 从 简单 到 高 级 的 各 种 动态 概率 模型 。 目 前 我 所 展示 的 所 有 程序 








都 有 一 个 局 限 性 : 

















必须 预先 定义 时 间 步 的 数量 。 下 一 小 节 介绍 如 何 突破 这 一 限制 。 
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8.3 ”建立 永 续 系 统 的 模型 


本 节 的 目标 是 定义 可 以 持续 任意 时 长 的 动态 概率 模型 。 这 些 模型 可 用 于 根据 随时 间 
推移 积累 的 证 据 ， 监 控 持续 运行 的 系统 状态 。 实 现 这 种 模型 的 机 制 并 不 难 ， 但 是 您 需要 
了 解 一 个 新 的 Figaro 概念 一 一 宇宙 ( universe )。 












































8.3.1 理解 Figaro 的 宇宙 概念 


在 第 7 章 中 ， 您 学 习 了 关于 元 素 集合 的 知识 。 元 素 集合 是 一 种 数据 结构 ， 其 中 的 元 
素 按 名 访问 。 宇 宙 是 一 种 特殊 的 元 素 集合 ， 它 还 提供 了 对 推理 算法 有 用 的 服务 ， 如 内 存 
管理 和 依赖 性 分 析 。 因 此 ， 推 理 算 法 通常 在 宇宙 上 运行 。 
到 目前 为 止 ， 您 对 宇宙 的 概念 还 一 无 所 知 ， 大 部 分 时 候 您 没有 必要 考虑 它 。 但 是 每 
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个 元 素 都 属于 某 个 宇宙 。 始 终 有 一 个 默认 的 宇宙 ， 除 非 另 做 指定 ， 否 则 元素 就 处 于 这 个 
默认 宇宙 中 。 
元 素 集合 和 宇宙 的 概念 紧密 相关 。 下 面 是 需要 记 住 的 一 些 要 点 。 
量 ”每 个 宇宙 都 是 元 素 集合 ， 但 不 是 每 个 元 素 集合 都 是 宇宙 。 
四 ”每 个 元 素 集合 都 与 一 个 宇宙 关联 。 如 果 元 素 集合 本 身 就 是 宇宙 ， 关 联 的 宇宙 就 
是 它 自己 。 
图 ” 当 您 将 元 素 放 在 一 个 元 素 集 合 中 时 ， 它 的 宇宙 就 是 与 该 元 素 集合 关联 的 宇宙 。 
































您 一 定 记 得 ， 可 以 通过 提供 可 选 的 名 称 和 元 素 集 合 参 数 ， 将 一 个 元 素 放 在 元 素 集 合 
中 。 例 如 ， 编 写 如 下 代码 : 


Flip(0.5) ("coin", collection) 





















































元 素 Flip(0.5) 被 命名 为 coin， 放 collection 标识 的 元 素 集 合 
集合 ， 您 可 以 将 宇宙 作为 第 二 个 可 选 参数 ， 将 元 素 直 接 放 入 某 


Flip(0.5) ("coin", universe) 


始终 有 一 个 当前 的 默认 宇 。 如果 创建 元 素 时 没有 提供 可 选 名 称 和 元 素 集合 参数 ， 
其 元 素 集合 和 宇宙 都 将 是 默认 宇宙 。 这 个 默认 宇宙 保存 在 com.cra.figaro.language 包 中 的 
Scala 变量 Universe.universe。 

算法 也 在 宇宙 上 运行 。 除 非 另 外 指定 ， 这 个 宇宙 就 是 当前 默认 宇宙 。 可 以 通过 在 参 
数列 表 中 提供 可 选 的 附加 参数 指定 不 同 的 宇宙 。 例 如，VariableElimination (targe) 在 默认 
宇宙 的 指定 目标 创建 一 个 变量 消除 算法 。 Vonable Blinnationaee D0) 宇宙 u2 的 给 定 
目 和 量 消除 算法 。VariableElimination.probability 等 推理 快捷 方式 始终 在 默 
认 宇 宙 上 运 


中 。 因 为 宇宙 是 一 个 元 素 
个 宇宙 中 ， 例 如 : 
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您 可 以 两 种 方式 得 到 一 个 新 的 宇宙 。 其 中 之 一 是 调用 如 下 语句 ， 


new Universe 























这 将 创建 一 个 没有 元 素 的 新 宇宙 。 另 一 种 方法 是 调用 ， 























Universe.createNew () 























这 条 语句 除了 创建 新 宇宙 之 外 ， 还 将 默认 宇宙 设 为 该 新 宇宙 。 这 提供 了 从 新 宇宙 中 开始 
工作 ， 将 新 元 素 放 入 该 宇宙 ,让 您 的 算法 在 这 个 宇 害 上 运行 的 方便 途径 。 例 如 ， 您 可 以 
编写 如 下 语句 : 











































































































Universe.createNew () 

val x = Beta(1，2) 

val y = Flip (x) 
println(VariableElimination.probabilityl(y, true)) 




















元 素 x 和 y 将 放 入 新 宇宙 ， 变 量 消除 算法 将 在 新 宇宙 上 运行 。 

这 里 介绍 的 关于 宇宙 的 一 切 知识 都 适用 于 在 交互 式 Scala 解释 程序 中 运行 的 Figaro。 
您 所 创建 的 所 有 元 素 都 会 进入 一 个 宇宙 ， 除 非 另 外 指定 ， 该 宇宙 就 是 默认 宇宙 。 如 果 想 
要 忘记 之 前 的 交互 ， 从 头 开 始 ， 输 入 Universe.createNew()。 所 有 新 元 素 将 进入 新 创建 的 
默认 宇宙 ， 所 有 旧 元 素 将 被 忽略 。 

























































































































































































8.3.2 ”使 用 宇宙 建立 持续 运行 系统 的 模型 


为 了 用 Figaro 表现 没有 时 间 限 制 的 动态 概率 模型 ， 创 建 一 个 用 于 每 个 时 间 步 的 宇 
宙 ， 包 含 该 时 间 步 的 所 有 变量 。 该 模型 通常 分 成 两 部 分 描述 : 

加 ”一 个 初始 宇宙 。 

看 ”从 一 个 宇宙 进入 下 一 个 宇宙 的 函数 。 

这 两 部 分 定义 了 如 下 的 动态 概率 模型 (如 图 8-6 所 示 )。 












































































































































































































































1. 从 时 间 点 0 的 初始 状态 上 的 一 个 概率 分 布 开 始 ， 这 个 概率 分 布 由 初始 宇宙 中 的 
所 有 元 素描 述 。 

2. 对 初始 宇宙 应 用 函数 ， 得 到 时 间 点 1 的 宇宙 。 新 宇宙 中 的 元 素 定 义 了 时 间 点 1 
状态 上 的 概率 分 布 。 

3. 对 时 间 点 1 的 宇宙 应 用 函数 ， 得 到 时 间 点 2 的 宇 害 。 新 宇宙 中 的 元 素 定 义 了 时 















































间 点 2 状态 上 的 一 个 概率 分 布 。 
4. 根据 需要 继续 。 
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universe(1 三 
universe(0) = initial nextUniverse(universe(0)) 























图 8-6 ”动态 模型 通过 一 系列 宇宙 推进 ,每 个 宇 密 包 含 给 定时 点 的 状态 变量 。 第 一 个 宇宙 由 初始 模型 定义 ， 
后 续 的 宇宙 通过 对 前 一 个 宇宙 应 用 nextUniverse 函数 创建 






































在 一 个 时 间 步 中 直接 影响 下 一 时 间 步 中 元 素 的 任何 元 素 都 必须 命名 。 这 个 名 称 使 程 
序 能 够 引用 前 一 宇宙 中 的 元 素 。 在 饭店 的 例子 中 ， 在 一 个 时 间 步 结束 时 等 座 的 客人 数 影 
响 下 一 时 间 步 的 状态 。 您 必须 将 表示 这 一 数量 的 元 素 命名 为 waiting。 

现在 ,迁移 函数 以 前 一 个 宇宙 作为 参数 。 假 设 这 个 宇宙 包含 在 Scala 变量 previous 
中 ， 您 可 以 用 代码 previous.get[Int]("waiting") 获 得 前 一 个 宇宙 中 名 为 waiting 的 元 素 。 
注意 ， 您 必须 告诉 Scala 这 个 元 素 的 值 类 型 (Int)， 否 则 get 方法 将 无 法 知道 返回 的 元 
素 类 型 。 

您 希望 查询 或 者 观察 的 元 素 也 需要 命名 。 那 样 ， 就 可 以 在 每 个 时 间 步 中 一 致 地 引用 
该 元 素 。 这 上 段 开场 白 之 后 ， 下 面 就 是 表现 饭店 持续 模型 的 代码 骨架 。 






















































































程序 清单 8-7 nextUniverse 函数 实现 


def transition(seated: List[Int], waiting: Int) : 






































(Element[ (List[Int], Int, Int)]) = { 迁移 函数 没有 变化 ， 只 是 在 
加 // details are the same as before 返回 元 素 中 加 入 了 到 达 人 
定义 从 上 ^(allSeatedq，newWaiting arriving) 数 ， 因为 您 将 对 其 进行 观察 
一 宇宙 到 } 
下 一 宇宙 
的 函数 

| +> def nextUniverse (previous: Universe): Universe = { 从 前 一 个 宇宙 获得 
-> Val next = Universe.createNew () 之 前 的 状态 变量 

创 建 新 宇 val previousSeated = previous.get [List[Int]] ("seated") 
宙 , 使 其 成 val previousWaiting = previous.get[Int] ("waiting") 
为 默认 宇 val state = Chain(previousSeated, previousWaiting, transition _) 
宙 , 并 将 其 
赋 给 一 个 使 用 Chain 获得 代表 
Scala 变量 新 状态 的 元 素 
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ApPP1LY (state，(s: (List[Int], Int, Int)) => s._1) ("seated", next) 
Apply (state, (s: (List[Int], Int, Int)) => s._2) ("waiting", next) 
Apply (state, (s: (List[Int], Int, Int)) => s._3) ("arriving", next) 





a 从 这 个 元 素 获得 表示 单独 状态 变量 
返回 下 一 个 宇宙 的 元 素 ， 在 下 一 个 字 宙 中 分 别 命名 





























从 这 段 代 码 可 以 看 到 ， 这 和 模型 的 限时 版 本 没有 太 多 不 同 。 特 别 是 ， 包 含 主要 逻辑 
的 迁移 函数 几乎 没有 变化 。 代 码 中 最 为 明显 的 新 特征 是 使 用 名 称 标识 每 个 宇宙 中 代表 状 
态 变 量 的 元 素 。 您 通过 名 称 从 前 一 个 宇宙 中 获得 这 些 元 素 ， 在 放 入 新 宇宙 时 为 其 命名 。 
这 就 是 模型 的 表现 方法 。 现 在 ， 我 们 来 看 看 如 何 创建 一 个 应 用 程序 ， 以 持续 的 方式 







































































8.3.3 ”运行 一 个 监控 应 用 


您 的 目标 是 从 关于 系统 状态 的 初始 信念 开始 ， 根 据 每 个 时 间 步 接收 到 的 证 据 ， 重复 
更 新 关于 状态 的 信念 。 确 切 地 说 ， 您 执行 的 是 如 下 过 程 (参见 图 8-7)。 
1. 从 时 间 点 0 系统 状态 上 的 一 个 分 布 开 始 。 




















2， 加 入 时 间 点 1 接收 到 的 观测 值 ， 产 生 时 间 点 1 系统 状态 上 的 一 个 分 布 。 
3. 加 入 时 间 点 2 接收 到 的 观测 值 ， 产 生 时 间 点 2 系统 状态 上 的 一 个 分 布 。 
4. 根据 需要 重复 。 





在 State(0) 上 的 分 布 传播 Observations(1) 在 State(1) 上 的 分 布 
Ey et 在 State(2) 上 的 分 布 
一 人 在 State(3) 上 的 分 布 


图 8-7 ”过滤 过 程 。Figaro 维护 每 个 时 间 点 系统 状态 上 的 概率 分 布 。 从 一 个 时 间 点 到 下 一 个 时 间 点 ， 
Figaro 考虑 模型 的 动态 性 和 新 观测 值 的 条 件 ， 产 生 新 状态 上 的 概率 分 布 


这 一 过 程 有 不 同 的 名 称 , 包括 监控 、 状 态 估计 和 过 滤 。 这 些 名 称 指 的 都 是 同一 过 程 。 
实现 这 一 过 程 的 算法 常常 称 为 过 滤 算 法 ，Figaro 中 使 用 的 就 是 这 个 名 称 。 粒 子 过 滤 可 能 
是 最 流行 的 过 滤 算 法 。 这 是 一 种 抽样 算法 ， 用 一 组 样本 或 者 “粒子 ”表现 每 个 时 点 系统 
状态 的 分 布 。 关 于 粒子 过 滤 算 法 的 细节 可 以 在 第 12 章 中 找到 。 
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为 了 在 Figaro 中 创建 粒子 过 滤 算 法 ， 传 递 3 个 参数 : 
加 ”初始 宇宙 
四 将 前 一 个 宇宙 带 入 下 一 个 宇宙 的 函数 
量 ”每 个 时 间 步 使 用 的 粒子 数 

在 我 们 的 饭店 示例 中 ， 创 建 如 下 的 算法 : 


val alg = ParticleFilter (initial, nextUniverse, 10000) 


下 一 步 和 其 他 Figaro 算法 一 样 : 使 用 alg.start0 启 动 算法 。 对 于 粒子 过 滤 ， 这 会 生成 
初始 状态 的 概率 分 布 。 

粒子 过 滤 的 大 部 分 工作 由 advanceTime 方法 完成 ， 该 方法 将 系统 从 一 个 时 间 步 推进 
到 下 一 个 时 间 步 ， 同 时 考虑 新 的 证 据 。 在 本 例 中 ， 调 用 如 下 语句 : 


alg.advanceTime (evidence) 


证 据 的 描述 方法 与 之 前 看 到 的 不 同 。 在 本 书 中 ， 您 已 经 看 到 了 通过 为 元 素 添 加 条 件 
或 者 约束 而 指定 的 证 据 。 在 此 不 能 使 用 这 种 方法 ， 因 为 您 没有 表示 任 一 时 点 系统 状态 的 
元 素 的 直接 句柄 ; 它们 是 nextUniverse 函数 的 内 部 变量 。 作 为 将 代 ， 您 按照 名 称 引 用 这 
些 元 素 。 所 以 ， 必 须 告 诉 粒 子 过 滤器 您 有 证 据 的 元 素 名 称 ， 以 及 证 据 的 特性 。 

网 如 ， 您 可 以 这 样 指定 证 据 ; 


NamedEvidence ("arriving", Observation(3) ) 


这 是 NamedEvidence 类 的 一 个 实例 ， 它 将 一 个 名 称 〈arriving) 和 一 部 分 证 据 (这 里 
是 名 为 arriving 的 元 素 值 为 3 的 观测 结果 ) 配对 。 这 部 分 证 据 也 可 以 是 更 普遍 的 条 件 或 
者 约束 。 粒 子 过 滤 advanceTime 方法 的 参数 是 这 些 NamedEvidence 条 目的 列表 ， 该 列表 
指定 了 该 时 间 点 新 接收 的 所 有 证 据 。 

在 我 们 的 饭店 示例 中 ， 假 定 饭店 老板 断断续续 地 观察 一 个 时 间 步 中 到 达 饭 店 的 人 
数 。 所 以 ， 她 在 任意 特定 时 间 步 都 可 能 提供 或 者 不 提供 证 据 。 在 Scala 中 ， 您 可 以 为 她 
提供 一 个 Option[Int] 型 变量 ， 这 个 变量 可 以 为 None， 或 者 观察 到 的 人 数 。 然 后 ， 将 这 个 
可 选 观 测 值 转换 为 advanceTime 的 参数 。 下 面 是 相关 的 代码 : 


val evidence = { 
arrivingObservation(time) match { 












































































































































































































































































































































































































































case None => List() 
case Some(n) => List (NamedEvidence ("arriving", Observation (n))) 
} 
} 
alg.advanceTime (evidence) 


调用 advanceTime 之 后 ， 您 可 以 查询 当前 时 点 的 系统 状态 。 粒 子 过 滤 为 此 提供 多 种 
方法 ， 如 currentProbability、 rn 和 currentDistribution。 同 样 ， 因 为 没有 
特定 元 素 的 句柄 ， 您 按照 名 称 引用 被 查询 元 素 。 例 如 ， 为 了 得 到 等 位 客人 数 大 于 4 的 概 



























































8.4 小 结 229 














将 ， 您 称 可 以 使 上 如 下 代码 : 

























































































alg.currentPprobability ("waiting", (i: Int) => 1 > 4) 

要 得 到 饭店 中 就 坐 客人 的 预期 (平均) 数量 ， 可 以 调用 : 
alg.currentExpectation ("seated", (1: List[Int]) -=> 1.1ength) 

下 面 总 结 了 在 给 定 初始 宇宙 和 从 前 一 宇宙 返回 下 一 宇宙 的 函数 情况 下 运行 粒子 过 
滤 所 需 的 步 又 。 





1. 创建 粒子 过 滤 。 

2. 启动 粒子 过 滤 获 得 初始 分 布 。 
3. 对 于 每 个 时 间 步 完成 如 下 工作 。 

a) 收集 该 时 间 步 的 证 据 。 

b) 以 该 证 据 调 用 advanceTime， 获 得 新 状态 上 的 分 布 。 
c) 查询 新 分 布 。 
























































您 可 以 在 本 书 提供 的 代码 中 看 到 这 些 步 又， 产生 的 输出 如 下 : 
ime 1: expected customers = 9.6498, expected waiting = 1.2325 
ime 2: expected customers = 9.2651, expected waiting = 0.7388 
ime 3: expected customers = 9.3622, expected waiting = 1.2295 
ime 4: expected customers = 9.4169, expected waiting = 1.7192 
ime 5: expected customers = 9.6011, expected waiting = 2.0629 
ime 6: expected customers = 9.5866, expected waiting = 2.4307 
ime 7: expected customers = 8.9794, expected waiting = 1.3958 
ime 8: expected customers = 9.489, expected waiting = 2.2148 
Time 9: expected customers = 9.5205, expected waiting = 2.5118 





Time 10: expected customers = 9.5373, expected waiting = 2.8227 
Time 11: expected customers 9.5656, expected waiting 3.1624 
Time 12: expected customers = 9.4327, expected waiting = 2.6614 


您 可 以 看 到 这 个 程序 是 如 何 随 时 监控 就 坐 和 等 位 的 顾客 的 。 您 的 目标 已 经 实现 ， 您 
建立 了 一 个 复杂 动态 系统 的 模型 ， 可 以 随时 监控 该 系统 的 状态 。 
这 也 就 完成 了 本 书 有 关 建 模 技术 的 这 一 部 分 。 我 们 的 焦点 是 最 重要 的 思路 和 最 常见 
的 用 例 ， 现 在 ， 您 应 该 已 经 拥有 足够 的 技术 ， 可 以 将 Figaro 用 于 大 部 分 应 用 ， 并 且 理 解 
了 与 建 模 相关 的 Scaladoc 的 各 个 方面 。 
注意 : 我 没有 试图 全 面 地 介绍 Figaro 的 每 个 特性 。Scaladoc 提供 了 Figaro 完整 功能 的 描述 。 如 
果 您 有 什么 不 清楚 的 地 方 ， 请 发 送 邮 件 到 figaro@cra.com; 我 们 始终 渴望 着 改善 文档 。 
本 书 的 下 一 部 分 介绍 概率 推理 的 工作 原理 ， 帮 助 您 最 大 限度 地 利用 模型 。 
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8.4 小 结 


图 ”动态 系统 由 随时 间 推 移 而 改变 的 状态 组 成 ;， 不 同时 点 的 状态 相互 关联 。 
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国 ”许多 动态 概率 模型 采用 马尔 科 夫 假设 一 在 前 一 个 状态 给 定 的 情况 下 ， 当 前 状 
态 条 件 独立 于 所 有 更 早 的 状态 。 

国 尽管 隐 含 马尔 科 夫 模型 采用 马尔 科 夫 假设 ， 但 是 在 推理 当前 状态 时 必须 考虑 所 
有 之 前 的 证 据 ， 因 为 前 一 个 状态 无 法 观察 到 。 

图 ”动态 贝 叶 斯 网 络 就 像 有 多 个 状态 变量 的 隐 含 马尔 科 夫 模型 扩展 ， 通 过 将 这 些 变 
量 的 类 型 变 为 丰富 的 数据 结构 ， 可 以 建立 结构 随时 变化 的 系统 模型 。 

四 ”监控 或 者 过 滤 是 根据 接收 到 的 观测 值 随时 跟踪 系统 状态 的 过 程 ， 这 一 过 程 使 用 
粒子 过 滤 等 算法 实现 。 

加 ”Figaro 中 的 过 滤 通 过 创建 一 个 初始 宇宙 和 将 前 一 个 宇宙 映射 到 下 一 个 宇宙 的 函 
数 实现 。 

图 ”在 Figaro 中 进行 过 滤 时 ,影响 下 一 时 间 步 的 元 素 以 及 证 据 和 查询 元 素 按 名 引用 。 











































































































































































































8.5 练习 





在 www.manning.com/books/practical-probabilistic-programming 上 可 以 找到 部 分 练习 
的 解答 。 

1. 在 乒乓 球 比 赛 中 ， 先 得 21 分 者 为 胜 。Alice 和 Bob 进行 一 场 比赛 ，Alice 实力 稍 
强 ， 所 以 得 分 概率 为 52%。 使 用 马尔 科 夫 链 建 立 乒乓 球 比 赛 的 模型 ， 并 用 它 估算 Bob 
赢得 比赛 的 概率 。 
2. 现在 ， 我 们 来 尝试 练习 1 的 一 个 变种 。Alice 和 Bob 的 相对 技能 水 平 未 知 ， 比 赛 
开始 时 我 们 假定 Alice 得 分 的 概率 是 一 个 Beta(2，2) 分 布 。 这 也 可 以 马尔 科 夫 链 的 形式 
建 模 ， 只 是 迁移 概率 取决 于 一 个 未 知 的 参数 。 根 据 当 前 比分 是 Alice 以 11 :8 领先 这 一 
事实 ， 使 用 该 模型 计算 Bob 取胜 的 概率 。 
3. 让 我 们 建立 一 名 学 生 通 过 10 个 难度 不 断 加 大 的 章节 学 习 的 模型 。 每 一 章 都 有 一 
个 测验 。 学 生 的 测验 成 绩 取 诀 于 她 从 这 一 章 中 学 到 了 多 少 。 此 外 ， 每 个 章节 互 为 基础 ， 
所 以 学 生 从 某 一 章 中 学 到 多 少 取决 于 从 前 一 章 中 学 到 多 少 。 使 用 隐 含 马尔 科 夫 模型 建立 
这 种 情况 的 模型 ， 根 据 学 生 通 过 前 三 次 测验 的 事实 ， 预 测 她 成 功 通过 最 后 一 次 测验 的 
概率 。 

4. 使 用 DBN 创建 一 个 公司 的 简单 经 济 模型 。 这 个 DBN 有 3 个 变量 : 投资 、 利 润 
和 资本 。 在 任何 时 间 步 ， 资 本 等 于 之 前 的 资本 加 新 利润 ， 然 后 减 去 新 投资 。 任 何 时 间 步 
的 利润 总 额 不 确定 ， 但 是 倾向 于 随 投 资 的 增加 而 增加 。 考 虑 给 定时 间 点 的 投资 等 于 前 一 
时 间 点 总 资本 额 固定 比例 的 不 同 策略 。 对 于 某 个 给 定 的 固定 起 始 资本 总 额 ， 预 测 10 个 
时 间 步 之 后 不 同 投资 策略 得 到 的 资本 总 额 。 

5. 让 我 们 来 创建 一 个 网 络 随时 演变 的 简单 模型 。 在 每 个 时 间 点 ， 发 生 如 下 两 种 情 
况 之 一 : 网 络 中 添加 一 个 新 节点 并 随机 地 连接 到 现 有 的 一 个 节点 ， 这 种 情况 的 概率 为 





































































































































































































































































































可 














Ea 




































































0.1; 两 个 现 有 节点 的 边 状 态 反 转 (如 果 之 前 两 者 之 间 没 有 边 


边 )， 


使 用 某 个 给 定 的 初始 网 络 , 创建 一 个 Figaro 模 玫 
预测 100 步 之 后 网 络 中 的 边 数 。 
6. 让 我 们 来 创建 一 
越 来 越 多 的 人 会 接触 到 它 ， 所 以 流行 程度 不 断 提高 。 寿 








8.5 练习 


这 种 情况 的 概率 为 0.9。 














个 新 歌 在 流行 排行 榜 上 能 否 取得 成 功 的 模型 。 








型 ， 表示 





分 人 已 经 接触 到 它 ， 所 以 购买 者 减少 ， 














歌 | 








我 们 将 创建 
是 在 给 定 的 一 











个 有 5 个 变量 的 模型 。 























关中 第 一 次 听 到 
Newly Bought 是 在 给 定 的 一 周 ! 
的 人 数 。Quality 不 会 随时 间 
加 上 Newly Bought, Total Exposed 
































这 























Quality 代表 歌 E 
和歌 的 人 数 ，Total Exposed 是 听 过 这 首 歌 的 总 人 数 ; 
购买 歌 

















的 推 














E 某 个 时 点 ， 对 歌 
在 流行 排行 榜 上 的 排名 也 随 之 下 降 。 














100 个 时 间 步 : 


， 则 添加 一 条 边 
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; 否则 删除 





的 网 络 演化 。 





在 歌 











1 发 行 时 ， 








1 感 兴趣 的 大 部 
































的 总 体质 量 ; 








Newly Exposed 


的 人 数 ，Total Bought 是 目前 为 止 购买 过 这 首 












































移 而 变化 ， 而 Total Bought 是 前 一 个 Total Bought 
也 类 似 。Newly Bought 依赖 于 Quality 和 Newly 




































































Exposed; 新 接触 的 人 越 多 ， 购 买 歌曲 的 人 就 越 多 ， 但 是 这 还 取决 于 歌曲 
Newly Exposed 依赖 于 Total Exposed 和 Newly Bought; 听 过 歌曲 的 人 越 多 ， 
就 越 少 ; 另 一 方面 ， 在 给 定 的 一 周 内 购买 歌曲 的 人 越 多 ， 在 广播 中 出 现 
过 歌曲 的 人 也 就 越 多 。 

寻 为 歌曲 停留 在 排行 榜 上 的 时 间 没 有 限制 ， 我 们 必须 


























a) 从 这 个 模型 中 
数值 序列 。 当 Newly Bought 低 于 某 个 阔 值 
生成 的 数据 ， 观 测 Newly Bought 并 估算 











b) 此 时 ， 使 | 

















型 。Newly Bought 是 观测 变量 。 我们 将 查询 Total Exposed 。 乡 
模型 。 























E 成 数据 。 使 | 














粒子 过 滤 在 没有 i 

















E 据 


























《对 应 于 歌 


























的 ! 


的 质量 。 最 后 ， 














新 的 聆听 者 





的 次 数 越 多 ， 听 


使 用 Figaro 宇宙 创建 持续 模 
有 写 一 个 Figaro 程序 表达 该 





青 况 下 创建 Newly Bought 











从 排行 榜 上 滑落 ) 时 停止 
段 时 间 的 Total Exposed 。 


第 3 部 分 
推理 





























人 入 已经 编写 了 一 个 概率 程序 ， 如 何 使 用 它 呢 ? 您 必须 应 用 一 个 推理 算法 。 为 了 

4 人 最 大 限度 地 利用 概率 编程 ， 您 必须 理解 推理 算法 以 及 使 用 它们 的 最 好 方式 。 
本 书 的 第 3 部 分 专门 介绍 推理 。 第 9 章 提供 概率 推理 的 基本 概念 。 随 后 的 第 10~13 章 
描述 各 种 推理 算法 。 这 些 章节 在 算法 的 理论 描述 和 使 用 算法 中 的 实际 考虑 之 间 达 成 平 
衡 ， 并 提供 了 在 现实 世界 中 的 示例 。 

您 将 学 习 推 理 算 法 的 两 个 主要 家 族 : 因子 分 解 算法 和 抽样 算法 。 掌 握 这 两 类 算法 的 
原理 有 助 于 理解 概率 编程 中 遇 到 的 大 部 分 算法 。 相 应 地 ， 第 10 章 的 重点 是 因子 分 解 算 
法 ,第 11 章 则 聚焦 于 抽样 算法 。 第 12 章 说 明 如 何 采 用 第 10 和 11 章 中 学 习 到 的 算法 回 
答 各 种 查询 。 最 后 ， 第 13 章 介绍 了 两 种 高 级 且 非 常 重要 的 推理 : 关于 动态 系统 的 推理 ， 
以 及 模型 数值 参数 的 学 习 。 


























































































































































































































Me 























第 9 章 





概率 推 于 二 原则 





本 章 介绍 如 下 内 容 : 


加 ”使 用 概率 模型 的 3 个 重要 原则 
简单 的 组 件 构 建 复杂 模型 


一 一 ” 链 式 法 则 帮 





简单 的 查询 


全 概率 公式 帮助 


助 您 从 





您 简化 复杂 概率 模型 以 回答 


7EAN 


一 一 贝 叶 斯 法 则 可 以 用 于 从 结果 的 观测 得 出 关于 


根源 的 结论 


国 。 贝 叶 斯 建 模 基础 ， 包 括 如 何 从 数据 估算 模型 参数 ， 
并 用 它们 预测 未 来 的 情况 


在 本 书 的 第 2 部 分 中 ， 您 学 到 了 编写 应 用 于 各 种 情况 的 概率 程序 的 相关 知识 。 您 知 


道 概 率 编 程 系统 使 用 运行 于 这 些 程序 之 上 的 推理 算法 ， 根 据 证 据 回 答 查询 。 它 们 是 如 何 


做 到 的 ? 这 就 是 这 一 部 分 的 内 容 。 重 要 的 是 ， 










































































推理 的 


算法 。 





支持 快速 、 精 确 























J 解 J 这 些 原 理 ， 就 能 够 设计 模 























的 三 原则 o 三 原则 的 输入 和 输出 





























本 章 从 推 








里 的 基 硬 








所 示 。 


上 知识 开始 : 概率 推理 





型 ， 选 择 





如 图 9-1 
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链 式 法 则 
P(Subject) 
P(Size | Subject) |_ 
P(Brightness | Subject) 
全 概率 公式 


P(Subject, Size, Brightness) 


贝 叶 斯 法 则 


P(Subject) 
P(Size | Subject) 可 罗 

















则 


P(Subject, Size, Brightness) 


P(Subject) 


P(Subject | Size) 


图 9-1 ”概率 推理 三 原则 的 输入 和 输出 。 链 式 法 则 帮助 您 将 一 组 条 件 概率 分 布 转换 为 联合 概率 分 布 。 
全 概率 公式 帮助 您 从 一 组 变量 的 联合 概率 分 布 生成 单一 变量 上 的 分 布 。 贝 叶 斯 法 则 帮助 您 在 











大 | 


原 











原 





因 的 条 件 概 率 分 布 








您 首先 将 学 习 链 式 法 则 , 该 法 则 











帮助 您 从 简单 (单独 变量 的 局 部 条 伯 





给 定 的 情况 下 ， 将 结果 的 条 件 概 率 分 布 “ 反 转 ”为 在 结果 给 定 情况 下 











[概率 分 布 ) 















































































































































到 复杂 (所 有 变量 的 完整 联合 概率 分 布 )。 

国 ”9.2 小 节 中 描述 的 全 概率 公式 ， 从 复杂 (完整 联合 分 布 ) 回 到 简单 (单一 变量 
的 分 布 )。 

四 ”最 后 是 9.3 小 节 介 绍 的 贝 叶 斯 法 则 , 这 可 能 是 最 著名 的 推理 原则 。 贝 叶 斯 法 则 
可 以 “ 反 转 ”依赖 性 的 方向 ， 将 给 定 原因 的 结果 条 件 分 布 转化 为 给 定 结果 的 
原因 分 布 。 贝 叶 斯 法 则 对 于 加 入 证 据 (通常 是 结果 的 观测 值 ) 推 导出 原因 至 

这 三 条 推理 原则 可 以 用 于 回答 查询 。 

深入 新 材料 的 学 习 之 前 ， 我 们 先 复习 一 下 第 4 章 中 的 一 些 定 义 ， 在 本 章 的 学 习 中 需 

要 它们 。 
加 ”可 能 世界 的 所 有 状态 。 


您 认为 可 能 
四 ”概率 分 布 一 一 为 每 个 可 能 世界 指定 的 0 一 1 
四 ” 先 验 概率 分 布 一 一 在 看 到 任何 说 























的 概率 ， 所 有 概率 加 起 来 为 1。 


F 据 之 前 的 概率 分 布 。 


| 


/ 


9.1 链 式 法 则 : 从 条 件 概率 分 布 构建 联合 分 布 


证 据 调节 一 将 
后 验 概率 分 布 一 看 到 证 据 之 
条 件 概率 分 布 一 为 其 他 变量 
规格 化 一 按 比例 调整 一 组 数量 ， 使 之 加 总 为 1 的 过 程 。 


注意 ; 对 于 每 条 原则 ， 我 们 都 用 一 段 补充 材料 



































E 据 应 用 到 某 个 概率 分 布 的 过 程 。 
后 的 概率 分 布 ， 调 
直 的 每 个 组 合 指定 某 个 变量 上 概率 分 布 的 规则 。 


























节 的 结果 。 














介绍 了 通用 





的 数学 定义 。 如 果 您 希望 深入 
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理解 它 








们 ， 这 些 材料 是 很 有 用 的 ; 如 果 您 熟悉 数学 标记 法 ， 这 种 更 为 抽象 的 讨论 有 助 于 帮助 您 











助 您 理解 使 用 这 些 规则 的 原因 和 方法 。 


沁 记 得 ， 第 4 章 介绍 








链 式 法 则 : 从 条 件 概率 分 布 构 建 联合 分 

















能 
的 成 分 : 变量 、 依 赖 性 、 
转化 为 可 能 世界 上 概率 分 布 的 必要 机 制 。 我 承诺 将 在 第 3 部 分 对 链 式 法 则 进行 





论 ， 现 在 到 时 候 了 。 


链 式 法 则 妇 
0 和 1 之 间 的 数值 ? 让 我 们 回 到 第 4 章 ! 
开始 ， 假 定 您 有 一 个 依赖 模型 ，Size 和 Brightness 均 依赖 





依赖 。 
Subject 给 定 
任何 其 他 变量 , 我 使 ) 
人行 :2 

现在 ， 可 
界 的 概率 ? 亿 

















既 率 模型 如 何 定义 可 能 世界 上 的 概率 分 布 ， 以 及 概率 模型 
多 式 和 数值 参数 。 我 曾经 提示 过 ， 链 式 法 则 是 将 这 些 成 分 


巩固 对 原理 的 理解 。 如 果 不 是 这 样 ， 您 尽 可 以 跳 过 这 些 补充 材料 ， 我 们 的 主要 目的 是 帮 









































您 还 得 到 













































































和 和 





















































其 他 变量 相同 的 CPD 对 





[能 世界 为 Subject、Size 和 Brightness 变量 各 指定 
| 如 ，P(Subject = People, Size = Large, Brightness = Darl 等 了 











9-2 中 总 结 
格 ， 只 是 表格 中 没有 条 件 









































F Subject， 但 是 相互 之 间 没 有 
了 Subject 概率 分 布 的 规格 ; 在 Subject 给 定 情况 下 Size 的 CPD; 


青 况 下 Brightness 的 CPD。 这 些 成 分 在 图 。(Subject 没有 依赖 











四 的 讨 


行 全 














中 何 定义 可 能 世界 上 的 概率 分 布 ? 换言之 , 如 何 为 每 个 可 能 世界 指定 一 个 
的 伦 勃 朗 示 例 。 从 变量 Subject、Size 和 Brightness 





以 及 


























变量 ， 只 有 








个 值 。 如 何 得 到 可 能 
F 多少? 根据 链 


式 法 则 ， 这 很 容易 计算 。 找 出 CPD 表格 中 的 对 应 条 目 ， 将 它们 相 乘 。 在 本 例 中 : 
P(Subject = People, Size = Large, Brightness = Dark) = 


P(Subject = People) x P(Size = Large | Subject = People) x P(Brightness = Dark | 


Subject = People) = 
0.8 x0.5 x0.8= 


0.32 


您 可 以 对 Subject、Size 和 Brightness 的 所 有 可 能 值 使 月 
所 示 的 结果 。 这 个 结果 称 为 Subject、Size 和 Brightness 的 联合 概率 分 布 ， 


























这 3 个 变量 值 每 个 组 合 的 概率 。 











大 | 











日 相同 的 公式 ， 获 得 表 9-1 中 


为 它 指定 了 
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Subject 概 率 值 


People Landscape 
0.8 0.2 














Subject 给 定 情况 下 的 Size 概 率 值 Subject 给 定 情况 下 的 Brightness 概 率 值 
ee Size 、 Brightness 
Subject Subject 


Small | Medium | Large 
People 0.25 0.25 0.5 


People 0.8 0.2 
Landscape 0.3 0.7 


图 9-2” 链 式 法 则 示例 的 贝 叶 斯 网 络 结 构 和 CPD 


Landscape 0.25 0.5 0.25 





7 





表 9-1 对 图 9-2 中 的 CPD 应 用 链 式 法 则 得 到 的 联合 概率 分 布 。 您 将 P(Subject) 乘 以 P(Size | 
Subject) 和 P(Brightness | Subject)。 这 些 概率 的 总 和 为 1 






































Subject Size Brightness 概 率 
People Small Dark 0.8 x 0.25 x 0.8 = 0.16 
People Small Bright 0.8 x 0.25 x 0.2 = 0.04 
People Medium Dark 0.8 x 0.25 x 0.8 = 0.16 
People Medium Bright 0.8 x 0.25 x 0.2 = 0.04 
People Large Dark 0.8 x 0.5 x 0.8 = 0.32 
People Large Bright 0.8 x 0.5 x 0.2 = 0.08 
Landscape Small Dark 0.2x0.25 x 0.3 = 0.015 
Landscape Small Bright 0.2 x 0.25 x 0.7 = 0.035 
Landscape Medium Dark 0.2 x 0.5 x 0.3 = 0.03 
Landscape Medium Bright 0.2 x0.5 x0.7=0.07 
Landscape Large Dark 0.2 x 0.25 x 0.3= 0.015 
Landscape Large Bright 0.2 x 0.25 x 0.7 = 0.035 






































真相 是 ， 我 机 了 点 小 花招 。 标 准 的 3 变量 链 式 法 则 规定 ， 对 于 第 三 个 变量 ， 您 必须 
同时 根据 前 两 个 变量 调节 其 概率 。 所 以 ， 我 们 不 使 用 如 下 的 计算 公式 : 
P(Subject = People, Size = Large, Brightness = Dark) = 






































P(Subject = People) x P(Size = Large | Subject = People) x P(Brightness = Dark | 
Subject = People) 


9.1 链 式 法 则 : 从 条 件 概率 分 布 构建 联合 分 布 





而 应 该 这 么 计算 : 





P(Subject = People, Size = Large, Brightness = Dark) = 
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P(Subject = People) x P(Size = Large | Subject = People) x P(Brightness = Dark | 


Subject = People, Size = Large) 


这 才 是 链 式 法 则 的 正式 陈述 。 但 是 我 利用 了 有 关 依 赖 性 的 特殊 知识 
































Brightness 


不 依赖 于 Size, 只 依赖 于 Subject。 在 Subject 给 定 的 情况 下 , Brightness 条 件 独 立 于 Size: 
P(Brightness = Dark | Subject = People, Size = Large) = 
P(Brightness = Dark | Subject = People) 









































您 就 不 得 不 使 ) 
用 于 计算 联合 分 布 的 链 式 法 则 形式 。 











链 式 法 则 的 内 容 就 是 这 些 ， 它 在 概率 建 模 中 是 简 六 
理解 贝 叶 斯 网 络 是 必 不 可 少 的 ， 一 般 来 说 也 是 其 中 的 生成 模型 。 因 为 概率 程序 是 生成 模 





























习 此 ， 按 照 我 的 方法 简化 链 式 法 则 是 合理 的 。 只 要 您 有 一 个 贝 叶 斯 网 络 ， 
链 式 法 则 定义 所 有 变量 上 的 完整 概率 分 布 ， 总 是 可 以 简化 这 条 法 则 ， 
赖 于 网 络 中 的 父 变 量 。 反 之 ， 如 果 Brightness 在 Subject 给 定 情况 下 不 条 

































































































































































希望 使 用 





使 得 每 个 变量 只 依 
牛 独立 于 Size， 
j 较 长 的 形式 。 贝 叶 斯 网 络 和 链 式 法 则 是 相辅相成 的 。 贝 叶 斯 网 络 规定 了 








而 关键 的 原则 。 链 式 法 则 不 仅 对 


型 的 编码 ， 既 然 理解 了 链 式 法 则 ， 就 有 了 理解 概率 程序 所 定义 的 概率 模型 的 基础 。 





链 式 法 则 的 一 般 形 式 
































链 式 法 则 是 适用 于 任何 依赖 模型 和 任何 变量 CPD、 任 何 函数 形式 的 通用 原则 。: 




































































量 都 有 规定 在 所 依赖 变量 任何 可 能 值 下 概率 分 布 的 CPD， 剖 





所 有 变量 的 联合 概率 。 























在 数学 标记 法 中 , 您 从 两 个 变量 XX 和 





和 给 定 XX 情况 下 的 CPD 一 一 P(XY|1X)。 链 





合 概率 分 布 P(X X)。 对 于 XX 的 每 个 可 能 值 X 和 X 的 每 个 可 能 值 / 





EE 
































可 以 将 CPD 中 对 应 数值 相 乘 得 出 


NA 要 每 个 变 








始 , 依赖 于 X 您 得 到 X 值 上 的 概率 分 布 PLX% 
式 法则 取得 这 两 个 成 分 ， 将 其 转化 为 六 和 的 联 














P(X=%Y=y)= P(X= x)P(Y= ylX= xX) 





标记 法 警告 : 使 用 XX 和 这 样 的 大 写字 上 


链 式 法 则 可 以 用 如 下 简单 






































种 标准 的 做 法 。 


























Ry) = PONY ) 




















这 个 容易 记忆 的 公式 是 











db 


于 特定 X 和 yy 值 的 许多 公式 的 简写 。 


表示 变量 ,，X 和 yy 等 小 写字 母 表示 变量 值 ， 是 









































如 果 变 量 超过 两 个 怎么 办 ? 链 式 法 则 可 以 推广 到 任意 数量 的 变量 。 假 定 您 有 变量 %、X%、… 








Xo 在 链 式 法 则 的 标准 陈述 中 ， 您 不 做 出 任何 独立 性 的 假设 ， 所 以 每 个 变量 都 依赖 了 

























































































有 变量 。 简写 标记 ; 表达 的 完整 链 式 ; 则 如 





P(X,%,...2 = PXIPE | XP | XX2)...PX | XX%,...X 1) 


FF 之 前 的 所 
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我 们 来 看 看 这 个 公式 所 表达 的 含义 。 它 说 明 ， 为 了 得 到 %、 和 %、…% 上 的 联合 概率 分 布 ， 
从 多 开始， 得 到 它 的 概率 ， 然 后 观察 依赖 于 % 的 %， 从 CPD 中 得 到 它 的 对 应 概率 。 接 着 从 
CPD 获得 依赖 于 光 和 % 的 冶 概 率 ， 循 环 继续 直到 最 后 从 CPD 得 到 取决 于 所 有 之 前 变量 的 六 
概率 。 顺 便 说 一 下 ， 这 个 公式 正 是 链 式 法 则 名 称 的 由 来 。 您 从 一 个 条 件 分 布 链 计算 出 联合 概率 
分 布 。 

我 们 的 多 变量 链 式 法 则 公式 对 依赖 性 不 做 任何 假设 ,特别 是 没有 独立 关系 。 增 加 独立 性 信 
息 可 以 显著 简化 该 公式 。 您 不 需要 在 给 定 变量 的 “|” 右 侧 包 含 所 有 之 前 的 变量 ， 只 需要 包含 在 
依赖 性 模型 中 直接 依赖 的 二 十. 例如 ， 考 虑 3 个 变量 Subject、 Size 和 Brightness 的 情况 ， 
如 果 遵循 上 面 的 公式 ， 得 到 的 结果 如 下 : 

P(Subject, Size, Brightness) = P(Subject) P(Size | Subject) P(Brightness | Subject, Size) 

但 是 根据 网 络 ，Brightness 不 依赖 于 Size， 只 依赖 于 Subject。 所 以 ， 公 式 可 以 简化 为 ， 

P(Subject, Size, Brightness) = P(Subject) P(Size | Subject) P(Brightness | Subject) 

确实 ， 这 就 是 用 于 计算 表 9-1 的 公式 。 
















































































































































































































































































9.2 全 概率 公式 ， 从 联合 分 布 获 得 简单 查询 结果 


链 式 法 则 帮助 您 从 简单 的 CPD 中 构建 一 个 联合 分 布 ,例如 Subject、Size 和 Brightness 
的 联合 分 布 。 通 常 ， 您 的 查询 是 关于 一 个 特定 变量 或 者 少数 几 个 变量 的 。 例 如 ， 您 可 能 
想 要 根据 对 一 幅 画 作 的 观察 ， 推 断 画 家 的 身份 。 假 定 您 有 所 有 变量 上 的 一 个 联合 分 布 。 
如 何 得 到 单一 变量 上 的 概率 分 布 ?原理 很 简单 : 任何 变量 值 的 概率 等 于 符合 该 值 的 所 有 
变量 的 联合 概率 的 总 和 。 

您 已 经 在 第 4 章 中 看 到 这 一 基本 原理 : 任何 事实 的 概率 是 与 该 事实 一 致 的 可 能 世界 
概率 的 总 和 。 所 以 ， 要 获得 Subject = Landscape 的 概率 ， 只 需要 加 总 所 有 与 Subject = 
Landscape 一 致 的 可 能 世界 的 概率 。 因 为 每 个 可 能 世界 由 所 有 变量 〈 包 括 Subject) 的 一 
个 组 合 构成 , 您 只 需要 搜索 Subject 赋值 为 Landscape 的 可 能 世界 。 这 个 简单 原理 通常 被 
称 作 全 概率 法 则 ， 但 是 我 更 愿意 使 用 全 概率 公式 这 一 普通 的 名 称 。 

全 概率 公式 的 使 用 如 图 9-3 所 示 。 首 先 得 到 图 中 顶部 的 先 验 概率 分 布 。 然 后 根据 
Size=Small 证 据 进行 调节 ， 获 得 中 间 的 后 验 概 率 分 布 。 您 使 用 两 个 平常 的 步骤 : 首先 ， 
删除 与 Size=Small 这 一 证 据 不 相符 的 变量 值 ， 然 后 规格 化 其 余 概 率 使 其 总 和 为 1。 在 该 
图 的 底部 ， 您 使 用 全 概率 公式 计算 给 定 证 据 下 画作 是 风景 画 的 概率 。 您 将 Subject 变量 
为 Landscape 的 所 有 行 对 应 的 概率 相 加 。 
注意 ，Size 取 Small 之 外 的 值 的 那 一 行 的 后 验 概率 为 0。 这 是 因为 您 删除 了 与 证 
不 符 的 可 能 世界 并 将 其 概率 设置 为 0。 所 以 ， 实 际 上 

P(Subject = Landscape, Brightness = Dark | Size = Small) 
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等 价 于 
P(Subject = Landscape, Brightness = Dark, Size = Small | Size = Small) 


P(Subject Size, Brightness) 


People Small Dark 
People Small Bright 

People Medium Dark 
People Medium Bright 

1 从 所 有 可 能 世界 People Large Dark 
和 它们 的 概率 入 手 J People Large Bright 


Landscape Small Dark 
Landscape Small Bright 
Landscape Medium Dark 
Landscape Medium Bright 
Landscape Large Dark 





Landscape Large Bright 


P(Subject, Size, Brightness | Size = Small) 


Small Dark 
Small Bright 


Landscape Small Dark 


Landscape Small Bright 
， P(Subject = Landscape | 

Size = Small) = 

0.06+0.14+0+0+0+0=0.2 





2. 使 用 证 据 ， 将 不 一 致 
的 可 能 世界 概率 设置 


为 0， 以 将 其 排除 1 
| 
| 
/ 
| | 
3. 然 后 进行 规格 化 ， 4. 加 总 与 查询 Subject = 
获得 后 验 概率 分 布 Landscape 一 致 的 概率 


图 9-3 ”使 用 全 概率 公式 回答 查询 。 某 个 变量 值 的 总 概率 是 所 有 与 该 值 一 致 的 联合 概率 的 总 和 





您 可 以 看 到 P(Subject = Landscape | Size = Small) 是 图 9-3 中 间 表 格 内 两 行 的 总 和 ， 
可 以 用 如 下 运算 表示 : 
P(Subject = Landscape | Size = Small) = 
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P(Subject = Landscape, Brightness = Dark | Size = Small) + P(Subject = Landscape, 


Brightness = Bright | Size = Small) 





























上 述 累 加 运算 的 简洁 写法 使 用 希腊 字母 >， 该 字母 是 标准 





的 数学 累加 标记 : 











P(Subject = Landscape | Size = Small) = 
2 P(Subject = Landscape, Brightness = b | Size = Small) 








(1) 


在 公式 的 右 侧 ，2 代表 Brightness 的 任何 可 能 值 ，5; 表示 累加 Brightness 所 有 可 能 




















值 下 的 后 续 项 值 。 假 定 我 们 要 计算 Brightness 的 总 和 。 现 在 ， 
和 Size 的 任意 可 能 值 ， 所 以 可 以 使 用 前 一 小 节 的 简写 方式 
P(Subject | Size) = 2 P(Subject, Brightness = b | Size) 


全 概率 公式 的 一 般 形式 























您 已 经 看 到 了 全 概率 公式 在 我 们 的 例子 中 的 应 用 ， 为 了 解 一 般 数学 定义 做 好 了 准备 。 同 样 





























公式 (1) 适用 于 Subject 











是 这 个 简单 的 原理 ，1 









































些 变量 ， 获 得 在 其 他 变量 上 的 分 布 。 例 如 ， 您 可 能 有 Color、 Brig 








但 是 标记 法 稍微 凌乱 一 些 。 您 有 一 组 变量 上 的 联合 概率 分 布 ， 希 望 加 总 某 





htness、 Width 和 Height 








上 的 联合 分 布 ， 希 望 得 到 Color 和 Brightness 上 的 分 布 ， 加 总 Width 和 Height。 现 在 ， 您 在 
所 有 变量 上 的 联合 分 布 可 以 根据 其 他 变量 集 ( 如 Rembrandt 和 Subject ) 调节 。 为 了 保持 公式 
的 简短 ， 您 将 使 用 每 个 变量 的 首 字母 。 还 有 , 我 们 假设 Width 和 Height 的 可 能 值 为 small( 小 ) 




















































































































和 large ( 大 )。 根据 全 概率 公式 ， 
P(C = yellow, B = bright | R = true, S = landscape) = 
P(C = yellow, B= bright, W = small, H = small | R= true, S = 
P(C = yellow, B = bright, W = small, H = large | R= true, S = 
P(C = yellow, B= bright, W = large, H = small | R= true, S = 
P(C = yellow, B = bright, W = large, H = large | R = true, S = 


























landscape) + 
landscape) + 
landscape) + 


landscape) 


您 可 以 用 数学 标记 法 写 出 上 述 公式 。 我 们 将 您 希望 求 取 分 布 的 变量 称 作 %,…%, 需要 加 总 
的 变量 称 作 )%,… )%， 调 节 所 依据 的 变量 称 作 ZZ,，…ZQ。 全 概率 公式 规定 ， 对 于 X%,…% 的 任何 














值 六 2 也 …… 写 的 任何 值 志 ，… 汉 : 
全 三 玫 人 |2 于 机 于 光 信 于 2 下 三 














>y >, 2 BOR=2 2 .1 i a 2 























这 些 公式 说 明 ， 要 取得 目标 变量 %,…% 取 值 为 %,，…%% 的 概率 ， 
































条 件 分 布 中 目标 变量 取 值 与 %, …%% 相 符 的 所 有 情况 。 





















































Orso | 2 a) = re oe Pde = nie 





因为 这 个 公式 适用 于 所 有 值 %, …% 和 有，…DH， 可 以 使 用 和 9. 











必须 加 总 所 有 变量 上 的 

















1 小 节 中 相同 的 简写 : 
| 





另 一 种 标记 技巧 可 以 使 全 概率 公式 更 容易 记忆 。 如 果 有 一 组 变量 X,…%, 您 可 以 用 粗 体 的 












































表示 它们 。 这 样 X 就 是 %,… 交 的 简写 Ee 同样 ， 可 以 使 3 粗 体 
VB 

















的 XxX 作为 值 %，…x%; 的 简写 


9.3 


9.3.1 


标记 法 警告 : 使 














9.3 ” 贝 叶 基 




















法 则 : 从 结果 推断 原因 
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未 加 粗 的 斜体 字母 如 X 和 X 表 示 单 独 变量 或 者 值 ， 粗 体 的 X 和 X 表 示 一 














组 变量 或 者 值 的 做 、》 





很 常见 。 





所 以 ， 对 于 特定 值 x 和 z: 





BO 














>,P(X=X%Y=y|Z2= 72) 





推广 到 所 有 值 x 和 Zz， 最 终 得 到 如 下 精练 的 公式 : 
P(X|2)= P(X Y= y12) 
















































































上 述 公 式 总 结 了 全 概率 公式 。 

从 一 组 变量 的 联合 分 布 入 手 ， 累 加 一 些 变量 以 获得 其 余 变 量 上 的 概率 分 布 时 ， 可 能 
会 遇 到 一 个 术语 。 这 样 得 出 的 分 布 被 称 作 其 余 变量 上 的 边缘 分 布 ， 加 总 变量 以 获得 其 他 
变量 上 边缘 分 布 的 过 程 被 称 作 边 缘 化 。 最 典型 的 情况 是 加 总 除了 某 个 变量 之 外 的 所 有 变 
量 ， 得 到 该 变量 上 的 边缘 分 布 。 
































您 





现在 
由 》 这 可 














， 您 已 经 了 解 了 概率 推理 
能 是 最 有 趣 的 一 个 原则 。 











三 原则 中 的 两 个 。 下 





























贝 叶 斯 法 则 : 从 结果 推断 原因 
































我 们 将 注意 力 转 向 最 后 一 个 原 





























概率 模型 推理 拼图 的 最 后 一 块 是 贝 叶 斯 法 则 ,这 一 法 则 是 以 18 世纪 数学 家 托马斯 
贝 叶 斯 的 姓氏 命名 的 ， 后 者 第 一 个 发 现 了 如 何 由 对 结果 的 观测 推导 出 有 关 原 因 的 知识 。 












































贝 叶 斯 法 则 帮助 您 结合 原因 的 先 验 概率 ( 在 知道 任何 关于 结果 的 情况 之 前 ) 和 给 定 原因 


下 该 结果 的 概率 ， 计 算 在 给 定 


理解 、 原 因 、 结 果 和 推理 


贝 叶 斯 法 则 与 因果 的 概念 相关 ， 后 者 又 与 模型 





















































变量 X 的 定义 中 使 用 

种 意义 上 ,YY 是 X 的 根源 (原因 )。 同 样 ， 
往 是 X 的 根源 ,例如 , 考 

通常 画家 可 能 在 决定 鲜艳 度 之 前 决定 画 
Brightness 的 根源 。 


























在 这 里 使 用 根源 ( 原因 ) 这 个 i 
成 过 程 的 模型 。 在 这 个 过 程 中 ,您 想象 画 











司 有 些 不 太 精 确 


结果 的 情况 下 ， 某 个 原因 的 条 件 概率 。 























的 依赖 性 相关 。 在 常规 程序 中 ， 








当 























如 果 构 造 一 个 X 





作 的 类 型 。 所 以 在 这 个 意义 上 ，Subject 





























。 更 准确 






































所 以 画家 首先 生成 Subject 变量 的 值 ， 然 后 传递 给 Brightness 变量 值 的 生成 过 程 。 
型 遵循 某 种 生成 过 程 时 ， 您 将 在 一 个 变量 的 值 为 另 一 个 变量 所 




















结果 这 两 个 词 。 
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系 



































了 男 一 个 变量 Y， 改 变 Y 的 值 可 能 造成 X 值 的 变化 。 所 以 ， 在 茶 
依赖 于 Y 的 概率 模型 ，Y 往 


虑 Subject 和 Brightness。 在 您 的 模型 中 Brightness 依赖 于 Subject， 


日 
碟 


的 描述 是 : 您 建立 数据 生 
然后 根据 主题 选择 鲜艳 度 。 
当 模 






































时 宽泛 地 使 用 原因 和 
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图 9-4 上 








j 贝 叶 斯 网 络 
第 一 个 变量 是 “画作 是 否 伦 勃 朗 的 作品 ” 因为 画家 的 身份 影响 关于 画作 的 任何 特征 。 
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述 生 成 过 程 的 一 个 较为 复杂 的 例子 。 在 这 个 例子 中 ， 生 成 的 


















































然后 ， 画 家 选择 Subject， 后 者 进而 帮助 确定 Size 和 Brightness。Size 依赖 于 Rembrandt 




















和 Subject 的 原因 是 不 同 画家 的 风景 画 倾向 于 采用 不 同 的 斥 寸 ;Brightness 的 情况 也 类 似 。 














可 以 采用 任何 方 
所 以 推理 的 方向 与 4 
































图 9-4 的 右边 指出 重要 的 一 点 。 尽 管 生成 过 程 遵 循 模型 中 的 箭头 ， 关 于 模型 的 推理 
向 。 实 际 上 ， 在 这 个 例子 









































我 们 的 目标 是 确定 画作 是 不 是 伦 勃 朗 的 ， 















































攀 度 以 确定 画 
分 情况 下 ， 遵 循 4 





























推理 的 方向 。 




















成 过 程 相 反 。 我 在 本 书 
定 是 进行 推理 的 方向 。 不 要 让 您 关于 某 个 领域 的 典型 推理 方法 〈 例 如 “我 观察 画作 的 鲜 
家 是 谁 ”) 指导 构造 网 络 的 方法 。 作 为 蔡 代 ， 应 该 考虑 生成 过 程 。 在 大 部 
成 过 程 可 以 生成 最 简单 、 最 清晰 的 模型 。 您 可 以 根据 自己 的 需要 选择 





一 直 强调 这 一 点 ; 网 络 中 箭头 的 方向 不 一 























































































































生成 过 程 





推理 


遵循 箭头 的 方向 一 一 2 一 采用 任何 方向 





图 9-4 ”网 络 箭头 往往 遵循 生成 过 程 的 方向 ， 但 是 推理 可 以 采用 任何 方向 




















我 已 经 说 过 ， 您 可 以 从 网 络 中 箭头 的 相反 方向 进行 推理 。 怎 么 做 呢 ? 贝 叶 斯 法 则 就 是 


答案 ! 让 我 们 


定 Size。 您 得 








照 生 成 过 程 的 方向 。 假 定 您 观察 到 Subject = Landscape， 和 希望 查询 Size 的 后 验 概 率 ， 可 
以 从 P(Size | Subjecb 直 接 得 到 。 如 果 想 要 从 关于 原因 的 证 据 推理 出 结果 ， 立 刻 就 可 以 得 


到 该 信息 。 


Subject 的 概率 值 














来 看 看 图 9-5 中 的 双 变 量 示例 。 这 里 ， 网 络 遵循 自然 的 生成 过 程 ，Subject 决 






































到 了 P(Subject) 和 P(SizelSubject) 两 个 成 分 。 首 先 ， 我 们 考虑 向 前 推理 一 一 按 








Subject 
People Landscape 
0.8 0.2 





你 
























































给 定 Subject 情 况 下 Size 的 概率 值 
Size 


0.25 0.25 0.5 
0.25 0.5 0.25 
















Subject 






People 
Landscape 


9-5” 贝 叶 斯 法 则 示例 的 双 变 量 模型 
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但 是 ， 您 往往 观察 到 的 是 关于 结果 的 证 据 ， 和 希望 推导 该 结果 可 能 原因 的 相关 信息 。 
您 希望 反 转 模型 ， 因 为 想 要 得 到 的 是 P(Subject | Size)， 即 结果 给 定 情 况 下 某 种 原因 的 概 
率 。 贝 叶 斯 法 则 使 之 成 为 可 能 。 





















































9.3.2 ”实践 中 的 贝 叶 斯 法 则 


贝 叶 斯 法 则 的 运算 很 简单 。 我 将 首先 展示 其 工作 原理 ， 然 后 解释 每 个 步 又。 完整 的 过 
程 如 图 9-6 所 示 。 您 从 图 9-5 中 的 模型 入 手 ， 然 后 观察 到 证 据 Size = Large。 您 希望 计算 这 
个 证 据 下 Subject 的 后 验 概率 分 布 一 计算 P(Subject | Size = Large)。 下 面 是 计算 过 程 。 

1. 计算 P(Subject = People) P(Size = Large | Subject = People) = 0.8 x 0.5 = 0.4， 
P(Subject = Landscape) P(Size = Large | Subject = Landscape) = 0.2 x 0.25 = 0.05。 这 些 数字 
显示 在 图 9-6 中 间 的 表格 里 。 

2. 规格 化 这 个 表格 得 到 所 需 的 答案 。 规格 化 因子 是 0.4 + 0.05 = 0.45。 所 以 P(Subject 
= 了 People | Size = Large) = 0.4/0.45 = 0.8889, P(Subject = Landscape | Size = Large) = 0.05 / 
0.45 = 0.1111。 这 个 答案 显示 在 图 9-6 中 下 方 的 表格 里 。 






























































































Size 


Qo 02 0.5 
0250S 0.25 










Subject 





People Landscape 
0.8 0.2 





People 
Landscape 









证 据 


* Size = Large 


People Landscape 
0.8x0.5=0.4 0.2x0.25=0.05 










| 
1. 计 算 P(Subject = People) P(Size = Large | Subject = People)。 
计算 P(Subject = Landscape) P(Size = Large | Subject = Landscape)。 
这 将 生成 一 个 表格 ， 为 People (0.4) 和 Landscape (0.05) 赋值 


2 规格 化 表格 ， 使 所 有 数字 的 总 和 为 1。 


每 个 条 目的 数字 除 以 0.4+0.05 


People Landscape TS 3 .规格 化 得 到 P(Subject = People | Size = Large) 
0.4/1(0.4+ 0.05 /1(0.4+ 0.05) = 和 P(Subject = Landscape | Size = Large) 的 数值 。 
0.05)=0.8889 0.1111 这 张 表格 表示 P(Subject | Size = Large) 


图 9-6 贝 叶 斯 法 则 的 运算 
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那么 ， 为 什么 上 述 计算 是 合理 的 呢 ? 在 这 一 过 程 中 ， 您 拥有 了 链 式 法 则 和 全 概率 公 
式 的 成 分 ， 将 要 使 用 9.1 小 节 中 学 到 的 链 式 法 则 ， 从 CPD 成 分 中 构造 出 联合 概率 分 布 。 
然后 ， 您 将 再 次 应 用 链 式 法 则 ， 不 过 这 次 的 方向 相反 。 最 后 ， 您 将 使 用 全 概率 公式 完成 
计算 。 下 面 是 计算 步 又。 

1. 取得 P(Subjecb 和 P(Size | Subject)， 应 用 链 式 法 则 得 到 P(Subject, Size) = P(Subject) 
P(Size | Subjecb 。 

2. 使 用 链 式 法 则 , 但 是 从 反方 向 进行 ， 可 以 写作 P(Size, Subjecb = P(Size) P(Subject 
| Size)。 

3. 因 P(Subject, Size) 和 P(Size, Subjecb 相 等 ,可 以 将 1 和 2 结合 起 来 ,得 到 P(Size) 
P(Subject | Size) = P(Subject) P(Size | Subjectb)。 

4. 将 等 式 两 端 同时 除 以 P(Size)， 得 到 





















































































































































P(Subject)P(SizelSubject) 
P(Size) 





P(SubjectlSize)= 

















现在 ， 公 式 的 左 侧 就 是 查询 的 答案 PCSubject | Size)。 这 个 公式 通常 被 称 作 贝 叶 斯 法 
则 , 但 是 它 的 形式 还 不 实用 , 因为 它 包含 了 您 尚未 得 到 的 P(Size), 所 以 还 需要 一 个 步 又 。 
1. 运用 全 概率 公式 和 链 式 法 则 ， 用 已 知 项 表示 P(Size)。 首 先 ， 运 用 全 概率 公式 得 
出 P(Size) = 2，P(Subject = s，Size)， 然 后 ， 使 用 链 式 法 则 得 出 PCSubject = s，Size) = 
P(Subject = s) P(Size | Subject = 9)。 最 后 ， 组 合 上 式 得 出 P(Size) = 2, P(Subject = s) P(Size 
| Subject = ?)。 

2. 得 到 最 后 的 答案 : 




















































































































P(Subject)P(Size=Large|lSubject) 
>, P(Subject=s)P(Size=Large|Subject=s) 





P(Subject|Size=Large)= 














您 可 以 看 到 这 个 答案 与 图 9-6 中 所 示 的 两 个 步骤 之 间 的 关联 。 第 一 个 步骤 计算 
Subject 两 个 可 能 值 的 分 子 P(Subject) P(Size = Large | Subject)。 现 在 ， 观 察 分 母 。 您 添加 
了 用 于 Subject 每 个 可 能 值 s 的 P(Subject = s) P(Size | Subject = 9)。 但 是 这 只 是 第 一 步 : 
为 每 个 Subject 值 计 算 的 数量 。 分 母 将 第 一 步 计 算 的 所 有 数字 加 总 。 所 以 ， 您 需要 将 每 
个 数字 除 以 总 数 。 这 是 表达 第 2 步 中 规格 化 运算 的 另 一 种 方式 。 
虽然 贝 叶 斯 法 则 很 简单 ,但 是 还 有 更 多 需要 学 习 的 地 方 。 贝 叶 斯 法 则 为 贝 叶 斯 建 模 
框架 (下 一 小 节 的 主题 ) 提供 了 基础 ,下 一 节 还 将 更 深入 地 探讨 贝 叶 斯 法 则 的 工作 原理 ， 
并 提供 贝 叶 斯 法 则 一 般 形式 的 补充 材料 。 
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9.4 ” 贝 叶 斯 建 模 


贝 叶 斯 法 则 为 一 种 通用 建 模 方法 提供 了 基础 ， 在 这 种 方法 中 ， 您 从 结果 的 观察 中 推 
导出 关于 原因 的 知识 ， 然 后 将 这 些 知识 应 用 到 其 他 潜在 结果 中 。 

本 节 使 用 第 2 章 中 首次 遇 到 的 掷 币 场景 前 述 贝 叶 斯 建 模 。 根 据 100 次 掷 币 的 结果 ( 模 
型 的 结果 )， 进 行 如 下 工作 。 

图 ”使 用 贝 叶 斯 法 则 推断 硬币 的 偏差 (结果 的 原因 )。 

加 ”阐述 多 种 预测 第 101 次 掷 币 结果 的 方法 。 

一 一 最 大 后 验 (MAP) 方法 。 

一 一 最 大 似 然 估 计 (MLE) 方法 。 

一 一 全 贝 叶 斯 方法 。 
图 9-7 重 现 根 据 前 100 次 掷 币 结果 预测 第 101 次 掷 币 结果 的 贝 叶 斯 网 络 。 您 有 3 个 
变量 : 硬币 的 偏差 (Bias)， 前 100 次 出 现 正 面 的 数量 (NumberOfHeads)， 以 及 第 101 
次 掷 币 的 结果 〈Tossio )。 首 先生 成 Bias， 此 后 所 有 掷 币 结果 依赖 于 Bias。 如 果 Bias 已 
知 ， 掷 币 结果 就 是 相互 独立 的 。 记 住 ， 当 我 说 Bias 首先 生成 时 ， 描 述 的 是 生成 过 程 ， 
不 是 说 Bias 先 为 人 所 知 。 这 是 说 明 变 量 生 成 的 顺序 不 一 定 是 推理 顺序 的 另 一 个 例子 。 在 
我 们 的 例子 中 ，Bias 先生 成 ， 但 是 推理 的 方向 是 从 NumberOfHeads 到 Bias 。 















































































































































































































































Toss 101 








图 9-7。” 掷 币 示例 的 贝 叶 斯 网 络 





























您 将 使 用 B 二 项 式 模型 , 所 以 Bias 的 特性 由 一 个 Beta 分 布 描述 , 而 NumberOfHeads 
由 一 个 依赖 于 Bias 的 二 项 分 布 描述 。 在 此 提醒 : 

加 ”二 项 变量 描述 随机 过 程 在 总 尝试 次 数 下 得 出 某 一 结果 的 次 数 ,在 我 们 的 例子 中 ， 
一 个 二 项 分 布 表 示 掷 币 结果 为 正面 向 上 的 次 数 。 二 项 变量 的 参数 由 每 次 尝试 
导出 相应 结果 的 概率 提供 。 
量 ”这 个 概率 就 是 硬币 的 偏差 。 如 果 硬 币 的 偏差 已 知 ， 它 可 能 是 一 个 特定 值 。 但 是 

在 本 场景 中 ， 您 不 知道 偏差 ， 试 图 根据 掷 币 的 结果 估算 它 。 因 此 ， 您 使 用 一 个 
随机 变量 建立 偏差 的 模型 。 确 切 地 说 ， 您 使 用 B 分 布 建立 偏差 的 模型 ， 这 是 一 
个 连续 分 布 。 对 于 连续 分 布 ， 您 使 用 概率 密度 函数 (PDF) 而 不 是 指定 每 个 值 
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的 概率 。B 分 布 有 两 个 参数 : a 和 B。a 可 以 直观 地 理解 为 之 前 已 经 看 到 的 正面 次 

数 加 上 1。 与 此 类 似 , B 表 示 之 前 已 经 看 到 的 背面 次 数 加 1。 正如 第 4 章 中 所 述 ， 

使 用 B 分 布 是 因为 它 和 二 项 分 布 配合 得 很 好 。 在 本 节 中 您 将 看 到 原因 。 

未 来 任何 一 次 搓 币 结果 由 一 个 Flip 给 出 ， 其 中 出 现 正面 的 概率 等 于 Bias。 正 如 贝 叶 

斯 网 络 所 暗示 的 那样 ， 未 来 的 掷 币 仅 直接 依赖 于 偏差 。 如 果 偏 差 已 知 ， 其 他 掷 币 结果 不 

会 增添 任何 信息 。 但 是 如 果 偏 差 未 知 ， 前 100 次 掷 币 的 结果 提供 了 关于 偏差 的 信息 ， 可 
以 用 于 预测 第 101 次 掷 币 的 结果 。 




























































































































































































9.4.1 估算 硬币 的 偏差 


如 何 根据 前 100 次 的 结果 ， 使 用 这 个 模型 预测 未 来 掷 币 结果 ? 这 是 贝 叶 斯 建 模 的 用 
武之 地 。 在 贝 叶 斯 建 模 中 ， 您 可 以 使 用 贝 叶 斯 法 则 ， 从 观察 到 的 正面 结果 次 数 推导 出 偏 
差 的 后 验 概率 分 布 。 然 后 ， 使 用 这 个 后 验 分 布 预测 下 一 次 掷 币 的 结 

这 个 过 程 如 图 9-8 所 示 。 如 果 观 察 数 和 干 次 掷 币 ， 其 中 有 40% 的 结果 是 正面 ， 可 以 推 
断 偏 差 可 能 接近 于 0.4。 如 果 没 有 这 么 多 次 掷 币 结果 ， 推 理 的 置信 度 可 能 就 没有 那么 高 。 
这 些 推 理 是 应 用 贝 叶 斯 法 则 的 直接 结果 。 回 到 我 们 的 例子 ， 如 果 在 100 次 掷 币 中 有 63 
次 结果 是 正面 ， 可 以 计算 偏差 在 NumberOfHeads = 63 情况 下 的 分 布 ， 然 后 使 用 这 个 预 
测 Tossiol 。 
















































































































































































































































































2. 用 贝 叶 斯 法 则 推算 
偏差 的 后 验 概率 


1 观察 正面 次 数 一 、 2 





图 9-8 ” 偏 币 示例 中 的 推理 顺序 








为 了 实现 这 个 目的 ， 首先 从 Bias 的 先 验 分 布 入 手 。B 分 布 的 特性 由 两 个 参数 a 和 B 描 
述 ， 我 们 将 Bias 先 验 B 分 布 的 参数 称 为 oo 和 Bo。 回 忆 第 2 章 ，oo 和 Bo 表示 在 观察 任何 真 
实 掷 币 结果 之 前 ， 想 象 的 正面 和 背面 次 数 加 上 1。 为 了 得 到 后 验 分 布 ， 您 将 真实 的 正面 
和 背面 次 数 加 到 这 些 虚 构 的 数字 上 。 例如， 假定 从 beta(2, 3) 开始 ， 这 意味 着 您 想象 自己 
已 经 看 到 了 1 次 正面 和 4 次 背面 〈 因 为 ao 是 想象 的 正面 次 数 加 1，Bo 也 类似)。 然 后 ， 
您 观察 到 63 次 正面 和 37 次 背面 的 结果 。 偏差 上 的 后 验 分 布 由 beta(65, 42) 给 出 。 如 果 将 
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后 验 B 分 布 的 参数 称 作 ol 和 Bl， 可 以 得 到 如 下 简单 公式 : 
Q1 =Qot 观察 到 的 正面 次 数 
Bi=Bo + 观察 到 的 背面 次 数 


注意 : 


图 9-9 展示 了 这 个 beta(65, 42) 分 布 ， 








在 实践 中 ， 您 没有 必要 自己 进行 这 些 计算 。 概 率 编程 系统 的 算法 将 负责 这 
是 


定 自己 希望 使 用 B- 二 项 式 模型 ， 该 模型 将 进行 所 有 必要 的 计算 。 但 
的 工作 原理 ， 这 是 您 花费 时 间 阅 读本 节 的 原因 。 


重 




















它 登 加 在 原来 的 beta(2, 3) 分布 之 上 。 您 可 以 看 


249 


些 计算 .您 指 


要 的 是 理解 系统 





到 两 个 现象 。 首 先 ， 分 布 的 波峰 向 右 移 动 ， 因 为 实际 观 差 到 的 正面 比例 (63/100〉 高 于 





起 始 的 想象 值 (1/5)。 其 次 ， 波 峰 变 得 更 加 陡峭 。 因 为 您 有 了 100 次 观察 ， 对 偏差 的 记 
估 更 加 自信 。 
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beta(65, 42) 


beta(2, 5) 
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-9 从 一 系列 观测 值 中 推算 硬币 的 偏差 。 这 里 ， 您 已 经 观察 到 63 次 正面 和 37 次 背面 的 结 


其 加 到 a 和 Bp 参数 。 后 验 PDF beta(65,42) 琶 加 到 先 验 PDF beta (2，5 ) 上 
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\ 
He 0.96 
六 0.99 

















加 总 结果 创建 用 于 后 验 分 布 新 B 分 布 的 简单 公式 是 应 用 贝 叶 斯 法 则 的 结果 。 将 贝 叶 
斯 法 则 应 用 到 掷 币 示例 时 ， 需 要 处 理 3 个 数量 : 
p(Bias = b):; Bias 在 数值 上 上 的 先 验 概率 密度 。( 在 这 个 标记 法 中 使 用 小 写字 母 






























































Pp 强调 该 数量 是 一 个 概率 密度 ， 而 非 概率 。) 

















P(NumberOfHeads = 63 | Bias = 5b): 给 定 Bias 值 的 情况 下 ， 观 察 到 
NumberOfHeads = 63 的 概率 。 这 个 概率 被 称 作 在 给 定数 据 下 5 的 似 然 率 。 


p(Bias =b|NumberOfHeads = 63): Bias 值 2 的 后 验 概率 密度 。 
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复 那 个 例子 的 结论 ， 您 可 以 看 到 这 对 偏 币 示例 也 适用 。 在 9.3.2 小 节 中 ， 
定 关 于 画作 尺寸 的 证 据 下 ， 画 作 主 题 概率 分 布 的 如 下 表达 : 














P(Subject)P(Size=Large|Subject) 
2, P(Subject=s)P(Size=LargelSubject=s) 


我 们 将 重点 放 在 分 母 上 。 它 将 Subject 所 有 可 


P(Subject|Size=Large)= 
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如 下 标记 法 总 结 这 个 公式 : 
P(Subject | Size = Large) cc P(Subject)P(Size = Large | Subject) 


因为 本 例 处 理 的 是 连续 变量 (偏差 )， 比 9.3.2 小 节 的 画作 示例 稍 复杂 一 些 
您 得 到 了 在 给 


些 。 我 将 重 








能 值 下 的 分 子 值 累加 起 来 。 二 个 
规格 化 因子 ， 确 保 〈a) 左 侧 始终 与 右 侧 的 分 子 成 正比 ; 〈b) 左 侧 值 的 总 和 为 1。 


ol 


符号 < 的 含义 是 左 侧 与 右 侧 成 正比 ， 比 例 常数 为 /PtSubject = 5) PlSize = Large | 





Subject = s)。 左 侧 是 Subject 上 的 后 验 概率 分 布 。 右 侧 的 第 一 项 是 先 验 分 布 。 






































后 验 概率 cx 先 验 概率 X 似 然 率 





第 二 项 是 似 


给 定 Subject 值 的 情况 下 观察 到 特定 数据 的 概率 。 因 此 ， 前 一 个 公式 可 以 总 结 大 











图 9-10 是 上 述 公 式 的 分 解 。 如 果 关 于 贝 叶 斯 建 模 有 应 该 记 
个 了 。 虽然 您 看 到 的 是 专门 用 于 画作 示例 的 公式 , 但 是 这 是 适 | 












































主 的 公式 ， 


于 贝 叶 斯 法 则 应 用 的 通 








那 就 是 这 









































用 原则 。 为 了 得 至 














到 特定 值 5 的 实际 后 验 ， 对 5 的 每 个 可 能 值 计算 等 式 右 侧 ， 








并 将 所 有 结 





果 加 总 得 到 总 和 B。 总 和 了 B 是 规格 化 因子 。 然 后 ， 将 先 验 概率 与 似 然 率 相 乘 再 除 以 了 ， 


得 到 后 验 概率 。 


“成 正比 ”符号 





给 定 该 值 情况 下 


指定 什 的 先生 率 。 一 某 个 证 据 的 概率 
/ / 
v » 
Posterior ~ Prior . Likelihood 
i 
5 1 为 您 打算 推理 的 变量 的 


2 规格 化 以 得 到 该 变 
量 上 的 后 验 分 布 


图 9-10 ” 贝 叶 斯 建 模 公式 的 结构 

如 果 您 考虑 的 是 连续 变量 (就 像 我 们 的 例子 中 那样 
为 需要 求 得 5 的 所 有 可 能 值 上 的 积分 。 回 到 撕 币 示例 ， 
P(Bias=bINumberOfHeads=63)= 


每 个 值 计算 等 式 右 侧 






























































P(Bias=b)P(NumberOfHeads=63|Bias=b) 





下 
| P(Bias=x)P(NumberOfHeads=63|Bias=x)dx 
0 


Wn 


使 用 我 们 的 “成 正比 ”标记 ， 可 以 重 写 为 : 





)， 规 格 化 过 程 可 能 
贝 叶 斯 法 则 的 陈述 如 下 : 


很 困难 ， 
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P(Bias = b | NumberOfHeads = 63) c P(Bias = b)P(NumberOfHeads = 63 | Bias = 5) 
后 验 概率 仍然 与 先 验 概率 与 似 然 率 的 乘积 成 正比 。 昌 然 最 后 一 个 等 式 很 简单 ， 但 是 
它 隐 藏 了 可 能 难以 估算 的 积分 。 幸 运 的 是 ， 在 B 二 项 式 模型 中 ， 这 个 方程 式 存在 一 个 简 
单 解 ， 您 在 本 节 开 始 时 已 经 看 到 了 这 种 解法 一 一 将 观察 到 的 成 功 与 失败 次 数 加 到 B 分 布 
的 参数 上 。 这 就 是 B 与 二 项 分 布 配合 得 很 好 的 原因 。 如 果 采 用 任意 的 连续 分 布 并 尝试 将 
其 与 二 项 分 布 配合 使 用 ， 最 终 会 遇 到 不 容易 解决 的 积分 问题 。 但 是 当 您 结合 Bp 和 二 项 分 
布 ， 就 很 容易 得 到 答案 。 
使 用 概率 编程 系统 时 ， 没 有 必要 自行 计算 这 些 积分 。 概 率 编程 系统 往往 能 够 使 用 近 
似 算法 处 理 这 些 困 难 的 积分 问题 ， 所 以 您 不 会 被 限制 在 特别 合适 的 函数 形式 上 。 不 过 ， 
在 有 这 样 的 函数 形式 时 ， 最 好 使 用 它 。 


注意 : 在 第 6 章 中 ,您 第 一 次 遇 到 共 斩 先 验 这 个 术语 ， 该 术语 措 述 和 取决 于 参数 的 分 布 配合 得 
很 好 的 一 个 先 验 分 布 。 从 技术 上 说 ,这 意味 着 后 验 分 布 和 先 验 分 布 有 相同 的 形式 .运用 
这 个 术语 ，B 分 布 是 二 项 分 布 的 共 圈 先 验 ， 因 为 参数 上 的 后 验 分 布 也 是 一 个 B 分 布 。 当 您 
使 用 共 罗 先 验 分 布 时 ， 贝 叶 斯 法 则 中 的 积分 有 一 个 简单 解 。 这 就 是 贝 叶 斯 统计 中 频繁 使 
用 共 圈 分 布 的 原因 。 但 是 在 使 用 概率 编程 时 ， 并 不 限于 使 用 共 罗 分 布 。 



























































































































































































































































贝 叶 斯 法 则 的 一 般 形式 

您 已 经 学 习 了 更 多 关于 贝 叶 斯 法 则 的 知识 ， 特 别 是 比例 关系 ， 现 在 是 解释 贝 叶 斯 法 则 一 般 
形式 的 时 候 了 。 和 全 概率 公式 一 样 ， 贝 叶 斯 法 则 可 以 推广 到 任意 个 变量 , 也 可 以 包含 条 件 变量 。 
根据 9.2 小 证 中 的 标记 法 ,您 有 3 组 变量 : %， 58( 居 ”)，%，…%( “结果 ”) 和 22，… 
忆 ( 条件 变量 )。 您 将 得 到 原因 根据 条 件 变 量 调节 的 先 验 概率 P(X%，…XMZFH，…F)， 以 及 同样 
在 条 件 变 量 上 调节 的 给 定 原因 下 结果 条 件 概 率 P( %，… )X,.….,Xr， 乙 ，… 了 jo 您 希望 求 出 给 
定 结果 下 原因 的 概率 ,同样 根据 条 件 变 量 进行 调节 。 这 就 是 P(X … 名，… 2D，…D) 
根据 贝 叶 斯 法 则 : 












































































































































































































































Bl ea | aso Ym es oa) = 


DC DO) 
2 Pi DO | 2) 
1 n 























我 曾经 承诺 过 ， 在 本 节 中 将 简化 这 个 公式 的 标记 法 。 因 为 分 母 是 规格 化 因子 ， 您 可 以 使 用 
我 们 的 “成 正比 ”简写 形式 使 这 个 方程 更 容易 理解 
B20 | A (ON A (0 | NN A A) 
这 里 的 后 验 概率 是 多 个 原因 变量 上 的 联合 分 布 ， 似 然 率 也 考虑 多 个 结果 变量 ， 而 且 其 他 变 
( 2Z 变量 ) 影响 着 原因 和 结果 ， 除 此 之 外 ， 这 和 我 们 的 “后 验 概率 x 先 验 概率 x 似 然 率 ” 
式 类 似 。 





















































































































































忱 则 
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最 后 ， 您 可 以 使 用 粗 体 字母 水 Y 和 2 表示 变量 组 。 贝 叶 斯 法 则 可 以 总 结 为 一 个 简洁 的 


P(X| %2) < P(X| 2)P(Y|X%2) 
其 中 XX 表示 所 有 原因 变量 ，X 表 示 所 有 结果 变量 ，2 表示 所 有 条 件 变 量 。 这 个 精练 的 公式 
是 记忆 贝 叶 斯 法 则 一 般 形 式 的 最 佳 手段 。 














































































































现在 ， 您 已 经 学 到 了 估算 Bias 的 方法 。 下 一 步 是 用 它 预测 Tossio1。 














9.4.2 ”预测 下 一 次 掷 币 结果 


好 了 ， 您 已 经 得 到 了 以 B 分 布 形式 表示 的 Bias 后 验 分 布 。 如 何 预测 下 一 次 扼 币 的 结 
果 ? 有 三 种 常用 方法 可 以 实现 这 一 目标 ， 对 于 B- 二 项 式 模型 来 说 都 很 简单 。 如 前 所 述 ， 
这 几 种 方法 是 ; 
日 ”最 大 后 验 (MAP) 方法 
四 ”最 大 似 然 估 计 (MLE) 方法 
曙 全 贝 叶 斯 方法 
下 面 按照 顺序 介绍 这 些 方法 。 


使 用 最 大 后 验方 法 


第 一 种 方法 称 为 最 大 后 验 ( MAP ) 估计 ， 计 算 具 有 最 高 后 验 概率 密度 的 Bias 值 。 
这 个 值 称 为 Bias 的 最 可 能 值 ， 它 能 使 先 验 概 率 和 似 然 率 的 乘积 最 大 。 然 后 ， 您 使 用 这 个 
Bias 值 预测 下 一 次 掷 币 的 结果 。 
图 9-11 描述 了 MAP 过 程 。 第 一 步 是 使 用 前 一 小 节 的 方法 计算 Bias 上 的 后 验 分 布 。 
从 先 验 分 布 beta(2,5) 开 始 ， 观 察 到 63 次 正面 和 37 次 背面 ， 得 到 后 验 分 布 beta(65, 42)。 
在 下 一 步 中 ， 计 算 beta(65，42) 出 现 波 峰 时 的 Bias 值 。 回 顾 图 9-9， 这 就 是 beta(65，42) 
值 最 高 时 的 x- 轴 坐标 。 换言之 ,您 要 得 到 的 是 beta(65, 42) 的 模 ， 有 一 个 简单 的 公式 可 以 
求 得 该 值 : 










































































































































































































































































CC 一 | 
a+p-2 

在 我 们 的 例子 中 ， 模 等 于 (65-1) /65+42-2)， 大 约 等 于 0.6095。 现 在 ， 假 定 Bias 
等 于 0.6095， 计 算 给 定数 据 (63 次 正面 ，37 次 背面 ) 的 情况 下 ，Tossio; 为 正面 的 概率 。 
Tossiol 的 函数 形式 说 明 ， 撕 币 结果 为 正面 的 概率 等 于 Bias 的 值 ， 即 您 假定 的 0.6095。 所 
以 ， 答 案 就 是 0.6095。 





mode(beta(ov 了 ))= 
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先 验 分 布 后 验 分 布 
beta(2, 5) beta(2 + 63, 5+ 37) = beta(65. 42) 


一 最 可 能 值 = 
63 次 正面 ，37 次 背面 (65 - 1)1(65+ 42 -2)= 0.6095 


NumberOfHeads P(Toss 101= Heads | data) = 0.6095 


图 9-11 用 MAP 方法 预测 下 一 次 掷 币 结果 








使 用 最 大 似 然 估计 

第 二 种 方法 是 MAP 估计 过 程 的 常用 特例 一 一 最 大 似 然 估 计 ( MLE )。 在 MLE 中 ， 
您 选择 “最 适合 数据 ”的 参数 值 ， 而 不 考虑 任何 先 验 分 布 。MLE 方法 有 时 候 被 认为 不 
是 贝 叶 斯 方法 , 但 是 如 果 假定 Bias 的 每 个 可 能 值 有 相同 的 先 验 概 率 , 那么 它 仍然 符合 贝 
叶 斯 框架 。 这 样 ， 公 式 
后 验 概率 cx 先 验 概率 x 似 然 率 
被 简化 为 
后 验 概率 cx 似 然 率 
对 此 ， 后 验 分 布 的 最 可 能 值 是 使 似 然 率 最 大 的 值 ， 最 大 似 然 估计 由 此 得 名 。 
图 9-12 说 明了 最 大 似 然 方 法 。 除 了 从 先 验 分 布 beta〈1,1) 开始 ， 为 0 一 !1 的 值 指定 
相同 概率 密度 之 外 ， 这 种 方法 与 图 9-11 中 的 MAP 方法 类 似 。 如 果 您 记得 先 验 分 布 的 参 
数 是 想象 的 已 知 正 面 和 背面 次 数 加 1， 就 能 看 出 这 一 先 验 分 布 表示 您 没有 想象 看 到 任何 
正面 和 背面 结果 的 情况 。 然 后 ， 通 过 相同 的 计算 序列 ， 得 出 预测 值 0.63。 这 个 结果 不 是 
巧合 ， 您 观察 到 在 100 次 括 币 中 有 63 次 正面 。 最 符合 这 些 观 察 结 果 的 Bias 值 就 是 ， 任 
何 一 次 掷 币 得 到 正面 结果 的 可 能 性 为 0.63。 所 以 ， 您 可 以 看 到 最 大 似 然 估计 选择 了 最 符 
合 数据 的 参数 ， 而 MAP 估计 用 先 验 分 布 平衡 数据 。 

































































































































































先 验 分 布 后 验 分 布 
beta(1, 1) beta(1 + 63, 1 + 37) = beta(64, 38) 


2 


63 次 正面 ，37 次 背面 


最 可 能 值 = 
(64 -1D1(64+38 -2)=0.63 


Co > P(Toss 101= Heads | data) = 0.63 


图 9-12 ”用 最 大 似 然 方法 预测 下 一 次 掷 币 结果 
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使 用 全 贝 叶 斯 方法 
预测 下 一 次 掷 币 结果 的 第 三 种 方法 有 时 称 作 全 贝 叶 斯 方法 ， 因 为 它 不 预测 单个 Bias 


值 ， 





方法 一 样 ， 计 算 Bias 的 后 验 分 布 。 为 了 使 
式 计 算 P(Tossiol = Heads | Data) 。 这 个 公式 通过 全 概率 公式 和 链 式 法 则 得 


的 是 ， 它 包含 积分 ， 因 为 Bias 是 一 个 连 纪 




















能 很 难处 理 ， 





一 次 括 币 结果 为 了 


所 以 ， 在 我 们 的 例子 中 ， 正 
个 简单 的 概率 公式 正 是 计算 B 分 
到 下 一 次 扼 币 出 现 正面 概率 的 简单 公式 。 








可 以 得 


先 验 分 布 


beta(2, 5) 


7 


63 次 正面 ，37 次 背 


但 是 B- 二 项 式 模型 
E 面 的 概率 是 





第 9 章 ”概率 推理 三 原则 





而 是 使 用 Bias 的 整个 后 验 分 布 。 方 法 的 过 程 如 














] 这 个 








4 同样 很 简单 。 


Cl 
oat+Ah 








后 验 分 布 























面 的 概率 为 65 / (65 + 42) = 0.6075 。 
参数 时 在 了 











beta(2 + 63, 5 + 37)= beta(65, 42) 


面 








各 种 方法 的 对 比 





了 解 了 这 三 种 方法 ， 下 面 我 们 对 比 它们 。 


加 ”MLE 方法 提供 














对 数 提 





的 最 佳 拟 合 ， 





学 习 中 的 


出 显著 的 特点 。 在 掷 币 次 数 较 少 的 ; 
次 掷 币 ， 其 中 7 次 得 到 正面 结果 ， 





是 公平 硬币 投掷 10 次 出 现 7 次 正面 的 情况 也 有 一 定 的 占 比 ,所 以 ; 

数 不 能 提供 偏 币 的 决定 性 证 据 。 

MLE 方法 有 两 个 优势 ， 这 是 它 相 当 流 行 的 原因 

要 对 所 有 参数 值 求 积 分 就 能 预测 下 一 个 实例 。 其 次 ， 它 不 要 求 指 
， 当 您 没有 任何 基础 时 ， 指 定 分 布 是 很 困难 的 。 但 是 ， 对 过 度 

可 能 是 这 种 方法 的 显著 问题 。 









































E 面 和 背面 次 数 上 加 1 的 原 








分 布 预测 Tossiol， 使 用 





续 变 量 。 正 如 估算 后 验 参 数值 那样 ， 
结果 是 ， ee By; 下 





为 了 














Rss 101= Heads | data) 
Be p(Bias = Ne P(Toss 101= Heads | Bias = bdp 


图 9-13 用 全 贝 > 


更 101= Heads | data) = 
65/(65+42)=0.6075 


一 次 掷 币 结果 不 





但 是 也 容易 造成 过 度 拟 合 。 
个 问题 ， 学 习 者 过 于 紧密 地 拟 合 数据 中 找到 的 模式 ， 
青 况 下 ， 这 特别 成 问题 。 例 如 ， 
您 应 该 立即 得 出 偏差 为 0.7 的 






































大 | : 


图 9-13 所 示 。 最 初 的 步骤 和 MAP 





图 中 所 示 的 公 
来。 A 
个 积分 可 


完成 闭环 ， 这 
这 样 您 最 终 


过 度 拟 合 是 机 器 
以 至 于 无 法 找 
如 果 只 有 10 
结论 吗 ? 即使 
这 样 的 掷 币 次 
































。 首 先 ， 它 相对 高 效 ， 因 为 不 需 


定 一 个 先 验 分 
拟 合 的 敏感 性 
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国 MAP 方法 可 能 是 一 个 好 的 妥协 。 包 含 一 个 先 验 可 以 起 到 两 个 作用 ， 一 是 编码 

您 所 拥有 的 先 验 信念 ,二 是 抵消 过 度 拟 合 。 例如 ， 如果 从 先 验 分 布 beta(11, 11) 
开始 ， 就 不 会 使 结果 以 任何 方式 偏向 正面 或 者 背面 ， 但 是 数据 的 影响 将 因为 
结果 中 增加 了 10 次 想象 的 正面 和 背面 结果 而 受到 抑制 。 为 了 说 明 这 一 点 ， 假 
定 掷 币 10 次 得 到 7 次 正面 的 结果 。 先 验 分 布 beta(11, 11) 意 味 着 您 已 经 看 到 了 
10 次 想象 中 的 正面 和 10 次 想象 中 的 背面 。 增 加 7 次 正面 结果 和 3 次 背面 结果 ， 
正面 和 背面 次 数 的 总 和 变 为 17 和 13。 所 以 ， 对 偏差 的 MAP 估计 为 17/(17+ 
13) = 17/30s0.5667。 您 也 可 以 从 前 面 给 出 的 B 分 布 求 模 公 式 中 看 出 这 一 点 ， 
该 公式 为 







































































































































































































































































a—l 
2a+D-2 


























对 于 7 次 正面 和 3 次 背面 的 结果 ， 后 验 分 布 为 beta(18，14)， 模 为 17/30。 即 使 
数据 中 有 70% 都 是 正面 结果 ， 您 对 正面 的 后 验 信念 仍然 只 是 稍 大 于 0.5， 远 远 
小 于 MLE 方法 的 0.7。 除 了 可 以 抵消 过 度 拟 合 之 外 ，MAP 方法 也 相对 高 效 ， 
忆 为 它 不 需要 求 得 所 有 参数 值 上 的 积分 。 但 是 它 确实 需要 指定 一 个 先 验 分 布 ， 
这 可 能 很 困难 。 
回 ”全 贝 叶 斯 方法 如 果 可 行 ， 可 能 优胜 于 其 他 方法 ， 因 为 它 使 用 了 整个 分 布 。 特 别 
是 ， 当 分 布 的 模 对 整个 分 布 不 具 代 表 性 时 ， 其 他 方法 可 能 造成 误导 。 对 于 B 分 
布 ,这 不 是 严重 的 问题 ;MAP 和 全 贝 叶 斯 预测 在 我 们 的 例子 中 可 能 相互 很 接近 。 
具体 说 ， 从 先 验 分 布 beta(11, 11) 和 观察 到 的 7 次 正面 和 3 次 背面 结果 ， 可 以 得 
到 后 验 分 布 beta(18, 19)。 贝 叶 斯 估算 的 下 一 次 搓 币 正面 概率 为 18 / (18 + 14) = 
18/32 = 0.5625， 仅 仅 稍 低 于 MAP 估算 的 值 。 但 是 ， 对 于 其 他 分 布 ， 尤 其 是 具 
有 多 个 峰值 的 分 布 ， 全 贝 叶 斯 方法 可 能 产生 比 MAP 方法 好 得 多 的 估算 结果 。 
即使 MAP 方法 使 用 先 验 分 布 ， 也 将 停留 在 其 中 一 个 峰值 上 ， 完 全 忽略 分 布 的 
个 重要 部 分 。 但 是 贝 叶 斯 方法 从 计算 上 更 难以 执行 。 
概率 编程 系统 所 支持 的 方法 范围 各 不 相同 。 最 典型 的 系统 支持 全 贝 叶 斯 推理 。 因 为 
叶 斯 推理 常常 需要 积分 ， 这 些 系统 使 用 逼近 算法 。 有 些 概率 编程 系统 也 支持 用 于 特 
定 模型 的 最 大 似 然 和 MAP 估计 ， 这 些 方法 的 计算 效率 可 能 更 高 。 特 别 是 ，Figaro 提供 
全 贝 叶 斯 和 MAP 算法 。 第 12 章 介 绍 如 何在 Figaro 中 实际 使 用 这 些 方法 。 
现在 您 已 经 知道 了 推理 的 基本 原则 ,并 理解 了 贝 叶 斯 推理 是 如 何 运 用 贝 叶 斯 法 则 从 
数据 中 学 习 ， 将 得 到 的 知识 用 于 未 来 的 预测 中 。 在 接 下 来 的 几 章 中 ， 您 将 学 习 有 具体 的 推 
理 算 法 。 概 率 编程 主要 使 用 两 个 推理 算法 族 : 因子 分 解 算法 和 抽样 算法 。 这 两 类 算法 是 
下 两 章 的 主题 。 
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9.5 小 结 


9.6 练习 


第 9 章 ”概率 推理 三 原则 





六 


链 式 法 则 使 您 可 以 取得 单独 变量 的 条 件 概率 分 布 ， 构 造 所 有 变量 上 的 联合 概率 





模型 。 


全 概率 公式 使 您 可 以 取得 一 组 变量 上 的 联合 概率 分 布 ， 对 其 进行 归纳 以 得 到 





独 变 量 上 的 概率 分 布 。 

















概率 模型 中 的 网 络 箭头 通常 遵循 数据 生成 的 过 程 ， 而 模型 中 的 推理 可 以 采取 任 
何方 向 。 贝 叶 斯 法 则 帮助 您 实现 这 一 目标 。 
结果 的 观察 中 推断 原因 ， 并 使 用 这 些 推理 预测 未 



































贝 叶 斯 建 模 使 用 贝 叶 斯 法 则 从 
来 的 结果 。 



















































































































































































在 贝 叶 斯 推理 中 ， 某 个 变量 值 的 后 验 概 率 与 该 值 的 先 验 概 率 和 似 然 率 的 乘积 成 






































正比 ， 后 者 是 给 定 该 值 的 情况 下 得 到 该 证 据 的 概率 。 


























在 MAP 估计 方法 中 ， 使 用 参数 的 最 可 能 后 验 值 预测 未 来 实例 。 

















在 MLE 方法 中 忽略 先 验 分 布 






































在 全 贝 叶 斯 方法 中 ， 使 用 参数 
精确 的 方法 ， 但 是 在 计算 上 很 





























， 用 最 大 化 似 然 率 的 参数 值 进行 预测 。 这 是 最 简 








单 的 方法 ， 但 是 可 能 造成 数据 的 过 度 拟 合 。 


值 上 的 整个 后 验 概 率 分 布 预测 未 来 实例 。 这 是 最 





困难 。 





在 www.manning.com/books/practical-probabilistic-programming 上 可 以 找到 部 分 练习 


的 解答 。 














考虑 打印 机 诊断 示例 的 详细 打印 机 模型 ， 见 第 5 章 图 5-11 中 的 贝 叶 斯 网 络 : 

















Printer Power Button On = true 
Toner Level = low 

Toner Low Indicator On = false 
Paper Flow = Smooth 

Paper Jam Indicator On = false 


Printer State = poor 









































完整 的 链 式 法 则 写 出 这 种 情况 的 概率 ， 每 个 变量 根据 所 有 前 面 变量 调节 。 
















































































芭 虑 网 络 中 的 独立 关系 ， 简 化 这 一 表达 式 。 
编写 适用 于 所 有 情况 的 联合 概率 分 布 表 达 式 ， 不 指定 具体 的 变量 值 。 
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2. 对 于 练习 1 中 的 网 络 : 

a) 编写 Printer Power Button On = true 的 概率 表达 式 。 

b) 编写 Printer Power Button On = true 且 Printer State = poor 的 概率 表达 式 。 

3. 假定 4000 万 美国 公民 中 的 1 个 将 成 为 美国 总 统 。 

a) 假定 50% 的 总 统 是 左 撒 子 ， 而 左 撒 子 在 总 人 口中 占 10%。 在 已 知 某 人 是 左 撒 子 
的 情况 下 ， 他 (或 她 ) 成 为 美国 总 统 的 概率 有 多 大 ? 
b) 现在 假定 15% 的 美国 总 统 曾 就 读 于 哈佛 大 学 ， 而 在 总 人 口中 有 1/2000 的 人 曾 就 读 
于 哈佛 大 学 。 在 已 知 某 人 曾 就 读 于 哈佛 大 学 的 情况 下 ， 他 (或 她 ) 成 为 美国 总 统 的 概率 有 
多 大 ? 

c) 假定 在 已 知 某 人 成 为 总 统 的 情况 下 ， 左 撒 子 和 就 读 于 哈佛 条 件 独立 ， 在 已 知 他 
(或 她 ) 是 左 撤 子 且 曾 就 读 于 哈佛 的 情况 下 ， 成 为 美国 总 统 的 概率 有 多 大 ? 








































































































































































































































































































第 10 章 


因子 分 


解 推理 算法 
































本 章 介绍 如 下 内 容 : 
田 ”因子 分 解 推 理 基础 知识 ， 因 
四 ”变量 消除 算法 
加 ”置信 传播 算法 







































































模型 的 方法 。 





现在 ,您 已 经 理解 了 概率 推理 的 基本 原则 ， 下 


/ 
» 














推理 算法 。 这 将 帮助 您 更 好 地 深入 到 


子 的 定义 和 因子 上 的 运算 
























































推理 算法 有 两 种 主要 类 型 。 




















四 ”因子 分 解 算法 在 称 为 因子 的 数据 结构 上 运行 ， 因 子 捕捉 /) 
量 ”抽样 算法 从 概率 分 布 中 创建 可 能 世界 的 示例 ， 并 / 




















看 两 章 将 学 习 概 率 编程 中 使 用 的 一 些 
E 解 特定 问题 的 最 佳 算法 ， 以 及 设计 与 算法 相 适 应 的 
























































j 于 推理 的 概率 模型 。 













































































j 这 些 例子 回答 查询 。 





| 样 算法 将 在 下 一 章 中 介绍 。 本 章 通过 如 下 知识 的 学 习 ， 介 绍 因子 分 解 算法 。 
因子 数据 结构 和 它 表现 概率 模型 及 查询 的 方式 。 您 将 看 到 ， 这 和 前 一 章 学 习 的 
链 式 法 则 和 全 概率 公式 紧密 相连 。 








变量 消除 ( variable elimination，VE ) 算法 。 这 是 一 种 精确 算法 ， 也 就 是 说 ， 它 











根据 模型 定义 的 证 据 , 计算 












































查询 的 准确 概率 。 因 为 它 是 精确 的 ， 如 果 模 型 支持 ， 





























它 非 常 有 效 ， 但 是 执行 速度 可 能 很 慢 。 








四 置信 传播 ( belief propagation，BP ) 算法 。 这 通常 
大 部 分 情况 下 能 


快 ， 





10.1 区 








子 





























259 


一 种 近似 算法 。 它 可 能 很 





返回 接近 正确 的 答案 ， 但 是 并 ) 











不 总 是 如 此 。 




















加 ”精确 不 
算法 类 型 


为 了 




















1 近似 算法 2 
4 的 方法 。 
解释 本 章 中 





的 概念 ， 























的 素材 。 





使 








6 一 8 章 。 


10.1 因子 











对 概率 分 布 进行 因子 分 解 ( factoring ) 的 想 济 
分 解 为 3X5， 


整数 ， 如 15， 


可 以 将 其 














布 分 解 为 其 组 成 医 
链 式 法 


子 的 查询 答案 。 

















10.1.1 什么 是 因子 

















变 - 旦 . 
































个 表格 表 








人 I\o 





首先 ， 我 将 给 出 
个 实数 的 函 








子 。 在 本 节 中 ， 


间 精 


的 Figaro 建 模 技术 相对 简单 
还 应 该 熟悉 第 9 章 中 的 推 





六 | 








度 和 速度 的 平衡 ， 以 及 设计 














我 从 第 5 宇 









































| 概率 模型 以 适应 您 所 使 用 





提取 了 许多 关于 贝 叶 斯 网 络 和 马尔 科 夫 网 络 



































和 ， 所 以 可 以 随意 复习 ， 然 后 
理 规则 ， 特 别 是 链 式 法 则 和 全 概率 公式 。 











卖 第 


通 请 






































类 似 





于 整数 因子 分 解 。 





如 果 您 有 


全 











您 将 首 





因此 3 和 5 是 15 的 因子 。 
先 学 习 这 些 因子 的 定义 。 然 后 ， 


同样 ， 您 可 以 将 概率 分 


您 将 了 解 使 用 
































子 的 通用 定义 ， 然 后 解释 























表 10-1 两 个 


Subject 


表 10-1 展示 了 两 个 变量 
一 列 。 因 子 的 右 侧 还 有 一 列 ， 包 含 实数 值 。 
如 ， 第 一 行 对 应 于 Subject = 








变量 (Subject 和 Size) 上 的 因子 。 


数 的 一 


People 和 Size = Small。 








则 将 概率 分 布 分 解 成 因子 的 方法 。 最 后 ， 您 将 看 到 如 何 用 全 概率 公式 表达 包含 因 





融入 概率 模型 的 方式 。 因 子 是 从 一 组 











它 遇 
种 表现 形式 。 尽 管 因 了 








可 以 有 不 同 的 

















表现 形式 ， 但 在 本 书 














(Subject 和 Size) 上 的 一 个 因子 。 


该 因子 对 于 每 个 变量 有 



































大 | 








子 的 每 一 行 对 





并 为 这 些 值 指定 一 个 实数 


Size 


应 了 


因子 为 这 些 人 f 


每 行 对 应 





变量 值 的 特定 组 合 。 例 














值 指定 实数 0.25。 





变量 的 特定 值 ， 





People 


Small 


0.25 





People 


Medium 


0.25 





People 


Large 


0.5 





Landscape 


Small 


0.25 





Landscape 


Medium 


0.5 





Landscape 





大 











子 在 概率 推理 





昌 














有 什么 用 处 ? 我 们 回 








Large 


到 基本 原则 。 














四 ”概率 分 布 为 每 个 可 能 世界 指定 


一 个 0 和 1 之 间 的 数 。 


0.25 
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加 ”在 一 组 变量 定义 的 概率 模型 中 ， 可 能 世界 由 每 个 变量 的 一 个 值 组 成 。 














概率 分 布 是 一 个 函数 ， a 指定 0 和 1 之 间 的 一 个 数 。 这 意 
味 着 ， 分 布 可 以 用 一 个 因子 表示 。 因 此 ， 您 可 以 将 概率 分 布 看 成 一 个 表格 ， 每 行 表示 变 





















































量 的 一 个 可 能 赋值 。 我 们 将 以 前 几 章 中 的 画作 场景 作为 例子 ， 该 场景 包含 变量 Subject、 


Size 和 Brightness。 为 了 帮助 您 回忆 ， 图 10-1 中 展示 了 这 个 例子 的 贝 叶 斯 网 络 和 条 件 概 


率 分 布 (CPD )。 


Subiect 的 概率 值 





People Landscape 
0.8 0.2 


给 定 Subject 情 况 下 的 Size 概 率 值 给 定 Subject 情 况 下 的 Brightness 概 率 值 











Size Brightness 


Subject 





Subject 





Small | Medium | Large 
People 0.25 0.25 0.5 People 0.8 0.2 


Landscape 03 0.7 





Landscape 0.25 0.5 0.25 














图 10-1 第 5 章 中 Subject-Size-Brightness 贝 叶 斯 网 络 的 重 现 






































正如 表 10-1， 这 个 网 络 中 的 每 个 CPD 都 可 以 用 一 个 因子 表示 。 实 际 上 ， 表 10-1 表 


示 P(Size | Subject), 也 就 是 图 10-1 中 给 定 Subject 情况 下 Size 的 CPD。 例如 根 居 CPD， 
P(Size = Small | Subject = People) 为 0.25。 相 应 地 , 在 表 10-1 中 , 与 Subject = People, Size 











= Small 行 相关 的 数值 为 0.25。 与 此 同时 ， 表 10-2 展示 了 与 P(Subject) 对 应 的 因子 。 


因为 




















Subject 没有 父 变量 ， 所 以 只 有 对 应 于 Subject 变量 的 一 列 。 最 后 ， 表 10-3 展示 了 对 应 于 














P(Brightness | Subjecb 的 因子 ， 该 表 提 及 了 变量 Brightness 和 Subject。 





表 10-2 对 应 于 P(Subject) 的 因子 
Subject 








People 0.8 








Landscape 0.2 


10.1 














表 10-3 对 应 于 P(Brightness | Subject) 的 因子 


























































































































































































































Subject Brightness 
People Dark 0.8 
People Bright 0.2 
Landscape Dark 0.3 
Landscape Bright 0.7 
当 您 考虑 表示 和 使 用 因子 的 代价 时 ， 因 子 中 的 行 数 是 重要 的 因素 。 您 可 以 使 用 一 个 
简单 公式 求 得 因子 中 的 行 数 :将 因子 中 每 个 变量 值 的 数量 相 乘 .例如 , 表 10-2 对 于 Subject 
的 每 个 可 能 值 有 一 行 ， 所 以 共有 2 行 。 在 表 10-1 中 ，Subject 和 Size 值 的 每 个 组 合 对 应 
一 行 ， 这 样 的 组 合 有 2X3 个 ， 所 以 共有 6 行 。 
注意 ; 虽然 目前 您 所 看 到 的 因子 都 是 CPD， 但 是 因子 是 比 CPD 更 通用 的 概念 。 在 变量 消除 等 
算法 的 运行 过 程 中 会 创建 各 种 不 与 CPD 对 应 的 因子 。 它 们 可 以 表示 任何 函数 ， 从 变量 
值 到 实数 ， 不 管 这 些 函 数 的 来 源 是 什么 。 此 外 ， 虽 然 因子 代表 的 函数 值 总 是 实数 ， 但 是 
它 不 一 定 是 概率 。 实 际 上 ， 因 子 代 表 的 值 不 一 定 在 0 和 1 之 间 。 例 如， 在 马尔 科 夫 网 络 
中 ， 可 以 从 势 中 得 出 因子 ， 这 些 数值 可 能 大 于 1。 
现在 您 已 经 理解 了 因子 的 概念 ， 但 是 它 与 概率 分 布 的 分 解 有 何 关 系 ? 









































10.1.2 用 链 式 法 则 分 解 概 率 分 布 




































































































































































































































































里 解 因 子 和 因子 分 解 算法 的 第 一 个 关键 是 链 式 法 则 , 我 们 在 第 9 章 中 学 习 了 这 个 法 
则 。 链 式 法 则 使 您 可 以 用 条 件 概率 的 乘积 计算 许多 变量 的 茶 个 赋值 的 联合 概率 。 链 式 法 
则 与 贝 叶 斯 网 络 紧 密 相 关 ， 对 贝 叶 斯 网 络 定义 的 概率 分 布 不 可 或 缺 。 

例如 , 考虑 两 个 变量 Subject 和 Brightness 。 链 式 法 则 说 明 , 可 以 用 如 下 公式 计算 “这 
幅 画 作 是 鲜艳 的 人 物 画 ”的 概率 : 

P(Subject = People, Brightness = Bright) = 

P(Subject = People) P(Brightness = Bright | Subject = People) = 

0.8 x 0.2 = 0.16 

数字 0.8 和 0.2 是 从 哪里 得 到 的 ? 您 可 以 在 因子 中 找到 它们 。 确 切 地 说 ，0.8 来 E 
于 表 10-2 中 ，Subject 取 值 为 People 那 一 行 中 的 P(Subject) 因 子 。 类 似 地 ，0.2 来 自 于 


表 10-3 中 Subject 取 值 为 People、 
Subject) 





大 | 





子 。 





人 
JEGA 


的 计算 。 图 10- 


型 








可 以 从 两 个 因子 的 对 应 行 











Brightness 


天 得 数值 ? 对 








St 








2 








展示 了 两 个 因子 相 











相等 的 行 相关 的 数值 
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将 变量 值 



































乘 的 结果 
相 乘 。 但 



































， 这 称 作 因子 乘 
是 有 些 变量 只 














让 。 因 子 乘积 
出 现在 一 个 或 者 另 一 个 因子 


区 值 为 Bright 那 一 行 中 的 P(Brightness | 











Subject 和 Brightness 的 所 有 从 


进行 类 似 














的 概念 很 重 
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中 ， 而 不 会 在 两 者 中 都 出 现 。 结 果 因 子 中 的 行将 提 及 (a)》 同 时 出 现在 两 个 因子 中 的 所 




















有 变量 、(b) 只 出 现在 第 一 个 





大 

















子 中 的 所 有 变量 和 〈c) 只 出 现在 第 二 个 因子 中 的 所 有 




















变量 。 为 了 取得 与 结果 因子 中 的 一 行 相关 的 数字 ， 您 可 以 找 出 第 一 个 因子 中 有 相同 (a) 
和 (b) 变量 的 行 ， 以 及 第 二 个 因子 中 有 相同 〈a) 和 〈c) 变量 的 行 。 然 后 ， 将 与 这 两 
行 相关 的 数值 相 乘 。 我 们 用 P(Subject) 和 P(Brightness | Subjecb 的 因子 详细 解释 。 要 将 
这 两 个 因子 相 乘 ， 采 用 如 下 的 步骤 。 

用 不 同 背景 表示 的 行 用 不 同 字体 表示 的 行 从 正确 背景 和 字体 的 行 中 获得 数值 












































v 
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Subject 


Er 


Brightness Subject Brightness 





Laws os| x 








= PEOPLE BRIGHT 0.8 x 0.2=0.16 


Landscape | Bright 0.2 x0.7=0.14 



































图 10-2 ”因子 乘积 。 各 行进 行 编 码 以 说 明 结 果 因 子 中 数字 的 来 源 。 例 如 ， 结 果 因 子 中 (People, Bright) 一 




















行 来 自 第 一 个 输入 中 的 People ( 深 色 背景 


.创建 一 个 新 因子 ， 其 变量 是 出 现在 两 个 输入 中 任何 一 个 的 所 有 变量 。 这 个 因子 
ee de ty 在 我 们 的 例子 中 ， 变 量 是 Subject 和 Brightness， 
(People, Bright)、(Landscape, Dark) 和 (Landscape, Bright) 








因此 有 对 应 于 (People, Dark)、 
的 行 





 ) 行 和 第 二 个 输入 中 的 (People, Bright) ( 全 大 写 ) 行 




















对 于 结果 因子 中 的 每 一 行 一 一 如 (People，Bright) 一 一 找 出 第 一 个 输入 中 与 此 行 一 
致 的 行 ， 得 到 该 行 中 的 数字 。 在 我 们 的 例子 中 ， 结 果 行 中 的 Subject 值 是 People， 所 以 
People 的 行 。 图 中 进行 了 编码 ,输入 中 的 Subject = People 
行 采 用 深 色 背景 ， 所 以 结果 因子 中 的 (People，Brighb 行 也 采用 深 色 背 景 。 您 得 到 了 数值 


我 们 必须 找到 输入 中 Subject = 




















0.8。 








2. 对 第 2 个 因子 进行 同样 



































操作 : 找 出 与 结果 因子 中 一 致 的 行 ， 并 得 到 该 行 中 的 数 


字 。 在 这 个 例子 中 ， 第 二 个 因子 的 (People, Brighb 行 使 用 全 大 写字 体 ， 您 得 到 数值 0.2。 























您 已 经 知道 如 何 将 两 个 因子 相 乘 ， 











可 以 求 取 任意 多 个 因子 的 乘积 。 在 第 9 章 中 您 已 经 





























解 到 ， 贝 叶 斯 网 络 定义 的 概率 分 布 可 以 用 链 式 法 则 表达 。 为 了 保持 公式 的 简短 ， 我 将 使 


用 如 下 简写 。 
图 ”Subject 简写 为 J。 
加 Size 简写 为 Z。 
加 ”Brightness 简写 为 B。 








在 我 们 的 例子 中 ， 可 以 将 公式 写 为 : 
P(J, 2Z, B) = P(D P(Z|D) P(B|D 
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上 式 没 有 指定 Subject、Size 和 Brightness 的 特定 值 ， 适 用 于 这 些 变量 的 所 有 值 。 因 
为 P(Subject)、P(Size | Subjecb 和 P(Brightness | Subject) 都 是 因子 , 上 式 说 明 Subject、 Size 
和 Brightness 的 联合 概率 分 布 可 以 用 3 个 因子 的 乘积 表示 ， 如 表 10-4。 
























































表 10-4 Subject、Size 和 Brightness 之 上 的 联合 概率 分 布 可 以 通过 3 个 因子 的 乘积 求 得 ， 每 一 
行 都 从 输入 因子 中 的 对 应 行 得 到 数字 












































Subject Size Brightness 
People Small Dark 0.8 x 0.25 x 0.8 = 0.16 
People Small Bright 0.8 x 0.25 x 0.2 = 0.04 
People Medium Dark 0.8 x 0.25 x 0.8 = 0.16 
People Medium Bright 0.8 x 0.25 x 0.2 = 0.04 
People Large Dark 0.8 x 0.5 x 0.8 = 0.32 
People Large Bright 0.8 x 0.5 x 0.2 = 0.08 
Landscape Small Dark 0.2 x 0.25 x 0.3 = 0.015 
Landscape Small Bright 0.2 x 0.25 x 0.7 = 0.035 
Landscape Medium Dark 0.2x0.5x0.3=0.03 
Landscape Medium Bright 0.2x0.5 x 0.7 = 0.07 
Landscape Large Dark 0.2 x 0.25 x 0.3 = 0.015 
Landscape Large Bright 0.2 x 0.25 x 0.7 = 0.035 












































您 已 经 知道 ， 因 子 中 的 行 数 是 每 个 变量 值 数量 的 乘积 。 所 以 在 表示 联合 分 布 的 这 个 
因子 中 ，Subject 有 2 个 值 ，Size 有 3 个 值 ，Brightness 有 2 个 值 ， 总 行 数 为 2x3 x2= 12。 
一 般 来 说 ， 行 数 与 变量 数量 成 指数 关系 。 这 也 就 意味 着 ， 当 您 处 理 的 不 是 小 型 网 络 时 ， 
代表 联合 分 布 的 因子 会 变 得 过 大 ， 无 法 表示 ， 也 无 法 用 其 进行 推理 。 
当 您 取得 一 个 整数 , 并 用 较 小 整数 的 乘积 表示 它 时 , 这 种 运算 就 是 整数 的 因子 分 解 。 
概率 分 布 也 是 如 此 。 而 且 ， 正 如 整数 ， 用 比 整数 小 得 多 的 因子 进行 乘除 可 能 很 容易 ， 概 
率 分 布 也 是 如 此 。 用 一 小 组 变量 上 的 因子 进行 概率 推理 比 使 用 与 变量 数 成 指数 关系 的 整 
个 联合 分 布 更 容易 。 这 也 就 解释 了 因子 对 概率 推理 的 重要 性 。 
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10.1.3 ”使 用 全 概率 公式 ， 定 义 包 含 因子 的 查询 


到 目前 为 止 ， 您 已 经 了 解 如 何以 因子 乘积 的 形式 表达 联合 概率 分 布 。 下 一 步 是 用 医 
子 表达 查询 的 答案 ， 这 一 步 的 关键 是 全 概率 公式 。 

没有 证 据 的 查询 
首先 ， 我 们 假定 没有 证 据 。 您 对 得 到 特定 变量 (如 Brightness〉 的 概率 分 布 感 兴趣 。 
首先 从 联合 概率 分 布 入 手 ; 在 我 们 的 例子 中 ， 分 布 如 表 10-4 所 示 。 全 概率 公式 告诉 我 
们 ， 如 果 您 对 Brightness 取 某 个 特定 值 (如 Bright) 的 概率 感 兴趣 ， 可 以 将 Brightness 
取得 该 值 的 联合 概率 分 布 累加 起 来 。 这 个 分 布 如 表 10-5 所 示 ， 该 表 中 的 概率 分 布 与 表 
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10-4 相似 ， 但 是 所 有 Brightness = Bright 的 行 都 用 粗 体 显示 。 由 此 可 以 得 出 Brightness = 
Bright 的 概率 是 所 有 Brightness 取 值 为 Bright 的 行 中 数字 的 总 和 ， 也 就 是 所 有 以 粗 体 显 
示 的 行 。 您 可 以 得 到 如 下 的 结 

P(Brightness = Bright) = 0.04 + 0.08 + 0.04 + 0.035 + 0.035 + 0.07 = 0.3 























表 10-5 Subject、Size 和 Brightness 的 联合 概率 分 布 ， 对 应 于 Brightness =Bright 的 所 有 行 以 









































粗 体 显 示 

Subject Size Brightness 

People Small Dark 0.16 

People Small Bright 0.04 

People Medium Dark 0.16 

People Medium Bright 0.04 

People Large Dark 0.32 

People Large Bright 0.08 
Landscape Small Dark 0.015 
Landscape Small Bright 0.035 
Landscape Medium Dark 0.03 
Landscape Medium Bright 0.07 
Landscape Large Dark 0.015 
Landscape Large Bright 0.035 





























同样 ， 可 以 将 Brightness 取 值 为 Dark 的 所 有 行 〈 浅 色 字 体 ) 中 的 数字 加 总 得 到 
Brightness = Dark 的 概率 。 将 两 个 数字 放 在 一 起 ， 就 可 以 得 到 表 10-6 所 示 的 因子 。 


表 10-6 表示 Brightness 概率 分 布 的 因子 。 每 一 行 是 联合 因子 中 对 应 行 数字 的 总 和 。Brightness 
=Bright 行 用 粗 体 显示 ， 表 示 其 中 的 数字 从 表 10-5 用 粗 体 显 示 的 行 中 取得 


























六 | 




















Brightness 
Dark 0.16 + 0.32 + 0.16 + 0.015 + 0.015 + 0.03 = 0.7 
Bright 0.04 + 0.08 + 0.04 + 0.035 + 0.035 + 0.07 = 0.3 











您 刚刚 进行 的 运算 有 两 个 常用 名 称 。 一 是 因子 总 和 。 不 要 混淆 : 总 和 并 不 意味 着 把 
两 个 因子 相 加 ， 而 是 将 单一 因子 各 行 的 数字 加 总 得 出 一 个 更 简单 的 新 因子 。 当 您 进行 加 
总 运算 时 , 就 从 结果 因子 中 删除 了 某 些 变量 ; 在 我 们 的 例子 中 , 您 删除 了 Subject 和 Size。 
您 可 以 说 这 是 对 这 些 变量 求 和 。 有 时 候 您 还 会 看 到 另 一 个 名 称 一 一 边缘 化 。Brightness 
上 的 结果 概率 分 布 称 作 边缘 概率 ， 与 开始 时 的 联合 分 布 截 然 相 反 。 我 将 避免 使 用 边缘 化 
这 个 术语 ， 但 是 因子 总 和 的 概念 在 分 解 推理 中 很 重要 。 

您 可 以 编写 一 个 数学 公式 表达 这 一 概念 。 因 子 总 和 的 数学 标记 是 希腊 字母 2。 要 表 
示 从 P(Subject, Size, Brightness) 中 加 总 Subject 和 Brightness 的 概率 , 可 以 写 出 如 下 公式 : 
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P(B) 二 之 pz P(J, Z, B) 
在 前 一 小 节 中 得 知 





P(J,Z, B)=P(D PZ|DPGB ID 
组 合 上 面 两 个 公式 ， 得 到 : 
P(B)= 3,z P(D) P(Z|D PE |D 
您 已 经 使 用 因子 的 乘积 和 加 总 运算 表达 查询 的 答案 。 结 果 表 达 式 被 称 作 乘积 之 和 表 
达 式 。 最 终 因子 中 的 数字 是 从 输入 因子 中 数字 相 乘 得 到 的 数字 的 总 和 。 因 子 分 解 推理 算 
法 操纵 乘积 之 和 表达 式 回答 查询 。 
有 证 据 的 查询 
如 果 有 证 据 ,， 会 发 生 什 么 情况 呢 ? 假定 您 已 经 观察 到 Brightness = Bright, 希望 查询 
Subject 的 后 验 概 率 。 换 言 之 ， 您 想 要 计算 P(Subject | Brightness = Bright)。 处 理 证 据 的 最 
简单 方法 就 是 引入 新 的 因子 ， 编 码 您 的 证 据 。 
正如 第 4 章 中 所 述 ,， 根据 证 据 的 调节 是 通过 排除 与 证 据 不 符 的 所 有 可 能 世界 (将 其 
概率 设置 为 0) 进行 的 。 这 可 以 通过 创建 一 个 因子 ,为 与 证 据 不 符 的 状态 指定 0 值 实现 。 
在 我 们 的 例子 中 ， 要 编码 证 据 Brightness = Bright， 可 以 引入 表 10-7 中 的 因子 。 
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表 10-7 编码 证 据 Brightness = Bright 的 因子 








Brightness 
Dark 0 
Bright 1 























这 个 因子 有 何 效果 ? 当 您 将 这 个 因子 乘 以 任何 其 他 因子 ，Brightness 取 值 为 Dark 的 
行将 自动 得 到 数字 0, 而 其 他 行 不 受 影 响 。 在 联合 分 布 中 , 您 将 有 效 地 删除 所 有 Brightness 
取 值 为 Dark 的 行 ， 其 他 可 能 世界 则 保持 不 变 。 

如 果 将 这 个 因子 称 作 Es， 就 得 到 如 下 的 乘积 之 和 表达 式 : 

P(J, B = Bright) = 2zePO) P(B |J) PIZ1J) Es(B) 

表 10-8 展示 了 这 个 概率 分 布 ， 它 是 P(Subject)、 P(Brightness | Subject)、 P(Size | 
Subjecb 的 乘积 再 乘 以 证 据 因 子 E(Brightness = Brighb 。 注 意 ， 所 有 与 证 据 不 一 致 的 行 : 
的 条 目 为 0; 那些 行将 被 “ 删 去 ”。 

下 一 步 是 执行 加 总 运算 。 您 对 没有 出 现在 查询 中 的 变量 (Size 和 Brightness) 求 和 。 
对 于 Subject 的 每 个 值 ， 将 表 10-8 中 所 有 非 零 行 相 加 。 结 果 是 表 10-9 中 的 因子 ， 它 代表 
P(Subject, Brightness = Bright)。 
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表 10-8 Subject、Size 和 Brightness 的 联合 概率 分 布 乘 以 Brightness =Bright 的 证 据 因子 


















































Subject Size Brightness 
People Small Dark 0.16x0=0 
People Small Brigh 0.04 x 1=0.04 
People Medium Dark 0.16x0=0 
People Medium Brigh 0.04 x 1= 0.04 
People Large Dark 0.32x0=0 
People Large Brigh 0.08 x 1 = 0.08 
Landscape Small Dark 0.015x0=0 
Landscape Small Brigh 0.035 x 1 = 0.035 
Landscape Medium Dark 0.03x0=0 
Landscape Medium Brigh 0.07 x 1 = 0.07 
Landscape Large Dark 0.015x0=0 
Landscape Large Brigh 0.035 x 1 = 0.035 


表 10-9 对 表 10-8 中 的 Si 





ze 和 Brightness 因子 求 和 











Subject 
People 0.04 + 0.08 + 0.04 = 0.16 
Landscape 0.035 + 0.035 + 0.07 = 0.14 











如 果 仔 细 观 察 前 面 的 因子 ， 就 会 发 现 它 不 能 精确 地 回答 您 的 查询 。 您 希望 得 到 条 件 
概率 P(Subject | Brightness = Bright); 例如 ， 您 想 知 道 在 
作 是 人 物 画 的 概率 。 但 是 前 面 的 因子 只 提供 P(Subject, Brightness = Bright)， 这 能 够 告诉 























您 画作 是 人 物 画 且 颜 色 鲜艳 的 概率 。 



















































































已 知 画作 颜色 鲜艳 的 情况 下 ， 夯 



































上 述 问题 很 容易 解决 。 概 率 分 布 P(Subject, Brightness = Bright) 是 查询 的 未 规格 化 答 





案 。 您 可 以 发 现 ， 表 10-9 中 的 因子 总 和 不 为 1， 它 们 之 间 的 比例 为 16 : 14。 为 了 得 到 查 


询 的 答案 ， 可 以 规格 化 这 个 因子 ， 使 数字 加 总 为 1 同时 保持 比例 ， 从 而 得 到 表 10-10 的 


























最 终结 果 。 





















































表 10-10 规格 化 表 10-9 中 的 结果 所 得 到 的 P(Subject| Brightness =Bright) 


Subject 





People 


0.16/ (0.16 + 0.14) = 0.5333 





Landscape 








现在 , 您 已 








0.14/ (0.16 + 0.14) = 0.4667 





经 了 解 什么 是 因子 , 学习] 
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子 上 的 乘积 和 加 总 运算 ， 


知道 如 何以 乘 








积 之 和 表达 式 表 示 查 询 的 答案 。 现 在 ， 您 似乎 必须 将 所 有 因子 相 乘 ， 创 建 联合 分 布 以 回答 
















































































查询 。 但 是 整个 联合 分 布 的 大 小 和 模型 中 的 变量 数量 成 指数 关系 。 因 子 分 解 推理 算法 的 主 











要 目标 是 避免 创建 整个 分 布 而 代 之 以 更 紧凑 的 形式 ， 这 是 下 一 节 所 要 学 习 的 内 容 。 
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10.2 ”变量 消除 算法 


在 前 一 小 节 中 ， 您 已 经 看 到 查询 的 答案 可 以 由 因子 上 的 乘积 之 和 表达 式 定 义 。 变 量 
消除 (VE) 法 是 一 种 操纵 上 述 表达 式 的 算法 。 基 本 运算 很 简单 : 使 用 简单 的 代数 运算 ， 
每 次 从 表达 式 中 消除 一 个 非 查询 变量 一 一 这 就 是 变量 消除 法 名 称 的 来 源 。 因 为 VE 仅 使 
用 代数 规则 操纵 表达 式 ， 所 以 它 是 一 种 精确 推理 算法 。 

尽管 从 根本 上 说 变量 消除 法 是 一 种 基于 代数 的 算法 ， 但 是 它 也 可 以 通过 图 形 理解 。 
图 形 视图 直观 地 说 明了 变量 消除 过 程 ， 有 助 于 理解 这 种 算法 的 复杂 性 。 代 数 视图 对 理解 
算法 的 运行 细节 很 重要 。 相 应 地 ， 我 将 首先 提供 图 形 视图 ， 帮 助 您 对 这 种 算法 有 总 体 上 
的 理解 ， 然 后 介绍 详细 的 代数 视图 。 































































































































































































































































































10.2.1 VE 的 图 形 解释 


VE 的 图 形 解释 很 直观 ， 只 需要 几 名 话 和 一 张 图 。 在 VE 中 ， 您 有 一 个 或 者 多 个 查 
询 变量 ， 按 照 某 一 顺序 消去 查询 变量 之 外 的 所 有 变量 。 当 您 消去 一 个 变量 时 ， 取 得 提 及 
该 变量 的 因子 ， 生 成 一 个 新 因子 。 创 建 这 些 图 的 目的 是 跟踪 计算 中 的 任何 一 个 时 点 ， 同 
一 因子 中 出 现 了 哪些 变量 。 
图 10-3 展示 了 一 个 4 节点 贝 叶 斯 网 络 ， 包 含 变量 Subject、Size、 Brightness 和 
Material。 查 询 变 量 为 Size， 您 将 按照 Material、Subject 和 Brightness 的 顺序 消去 变量 
这 是 一 个 随意 选择 的 顺序 。 您 可 以 使 用 任何 消去 顺序 ， 但 是 之 后 您 会 看 到 ， 这 会 造成 一 
定 的 差异 。 
图 10-3 展示 了 如 下 的 步骤 。 

1. 第 1 步 只 是 复制 原始 贝 叶 斯 网 络 。 

2. 根据 原始 网 络 ， 开 始 构建 初始 VE 图 。 对 于 网 络 中 的 每 个 节点 ， 这 个 图 中 也 包 
合 一 个 对 应 的 节点 ， 在 同一 个 因子 提 及 的 任意 两 个 节点 之 间 有 一 条 无 身边 。 这 包括 贝 叶 
斯 网 络 中 每 个 父 变 量 和 子 变量 之 间 的 边 ， 以 及 同一 子 变 量 的 任意 两 个 父 变 量 之 间 的 边 。 
例如 ，Subject 和 Material 都 是 Brightness 的 父 变量 ， 因 为 两 者 都 被 编码 Brightness CPD 
的 因子 提 及 ， 所 以 两 者 间 存 在 一 条 边 。 

3. 一 个 接 一 个 地 消去 变量 ， 在 消去 一 个 变量 时 ， 在 连接 到 被 消去 变量 的 任意 两 变 
量 之 间 增 加 一 条 边 〈 如 果 它 们 尚未 连接 的 话 )。 这 两 个 变量 都 被 消去 变量 所 创建 的 因子 
所 提 及 。 因 为 它们 出 现在 同一 个 因子 中 ， 所 以 必须 连接 。 
在 我 们 的 例子 中 ，Material 首先 被 消去 。 因 为 Subject 和 Brightness 已 经 相连 ， 所 以 
不 需要 添加 新 的 边 
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1. 原始 贝 叶 斯 网 络 2. 包含 同一 因子 提 及 的 两 个 节点 间 的 边 的 初始 VE 图 










3. 消除 Material 之 后 的 VE 图 4. 消除 Subject 之 后 的 VE 图 ; 
Size 和 Brightness 之 间 添 加 了 一 条 边 ， 
因为 两 者 都 被 消除 Subject 产 生 的 因子 所 提 及 


CC > Can > 


5. 消除 Brightness 之 后 的 VE 图 6. 完 整 的 诱导 图 


> 


图 10-3 ”通过 变量 消除 过 程 构建 一 个 VE 图 





























4. 接 下 来 消去 Subject。 因 为 Size 和 Brightness 都 连接 到 Subject， 它 们 在 结果 中 相 
互 连 接 。 

5. 最 后 被 消去 的 变量 是 Brightness， 没 有 添加 新 的 边 ， 只 剩 下 Size。 

6. 遇 f ,将 任何 图 中 出 现 的 所 有 边 组 合成 单一 图 .这 个 图 称 作 消去 Material、Subject 
和 Brightness 导出 的 图 ， 或 者 简单 地 称 作 诱 导 图 。 

术语 : 从 一 个 贝 叶 斯 网 络 开始 时 ， 初 始 VE 图 被 称 作 端 正 图 ， 原 因 是 端正 图 是 通过 
连接 相同 子 节点 的 双亲 使 其 “联姻 ”而 得 到 的 。 

理解 算法 的 复杂 性 

上 述 图 形 解 释 很 有 用 ， 因 为 它 帮助 您 理解 了 算法 的 复杂 性 。VE 涉及 许多 加 法 和 乘 
法 。 加 法 和 乘法 的 数量 与 所 创建 因子 的 大 小 紧密 相关 。 诱 导 图 为 您 提供 了 操纵 因子 大 小 
的 很 好 手段 ， 因 为 它 告诉 您 哪些 变量 出 现在 同一 个 因子 中 。 

这 种 分 析 依 赖 于 图 论 中 团 的 概念 。 团 ( clique ) 是 图 中 相互 连接 的 一 组 节点 。 如 果 
诱导 图 中 的 一 组 节点 组 成 团 ， 这 些 节 点 必然 在 某 个 时 点 一 起 出 现在 某 个 因子 中 。 实 际 上 
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不 难看 出 ， 出 现在 同一 个 因子 中 变量 的 最 大 数量 就 等 于 诱导 图 中 最 大 团 的 顶点 数 。 

例如 ， 在 图 10-3 右 下 角 的 诱导 图 中 ，Subject、Size 和 Brightness 变量 都 相互 连接 ， 
所 以 它们 组 成 了 一 个 团 。 这 些 变量 都 出 现在 消除 Subject 时 产生 的 中 间 因 子 一 一 在 乘 以 
提 及 Subject 的 因子 之 后 , 但 是 在 加 总 结果 中 的 Subject 之 前 。 类 似 地 ，Subject、Material 
和 Brightness 也 相互 连接 ， 且 出 现在 Brightness 的 CPD 中 。 但 是 Size 和 Material 不 相 
连 ， 所 以 Size、Subject、 Brightness 和 Material 没有 组 成 一 个 团 。 确 实 ， 在 任何 时 候 都 
没有 任何 因子 同时 提 及 Size 和 Material。 

现在 ， 您 知道 出 现在 一 个 因子 中 的 最 大 变量 数量 是 最 大 团 的 顶点 数 。 该 因子 有 多 大 
呢 ? 记 住 这 个 公式 : 要 得 到 因子 中 的 行 数 ， 将 每 个 变量 取 值 的 数量 相 乘 。 结 果 与 变量 的 
数量 成 指数 关系 。 这 导致 了 如 下 的 关键 结果 : 在 给 定 变量 消除 顺序 下 ，VE 的 复杂 度 与 
变量 消除 顺序 导出 的 图 中 最 大 团 的 顶点 数 成 指数 关系 。 

使 用 不 同 的 变量 消除 顺序 

前 面 的 分 析 遵 循 某 种 给 定 的 变量 消除 顺序 。 使 用 哪 一 种 顺序 是 否 重要 ”答案 是 ， 这 
会 带 来 很 大 的 差异 。 图 10-3 中 的 诱导 图 有 两 个 顶点 数 为 3 的 团 ， 最 大 团 顶 点 数 为 3。 

10-4 展示 了 两 种 备 选 顺序 产生 的 诱导 图 。 左 侧 的 诱导 图 中 最 大 团 的 顶点 数 为 4， 
因为 所 有 变量 都 相连 。 这 意味 着 使 用 这 一 顺序 ，VE 的 代价 将 更 高 。 右 侧 使 用 的 顺序 不 
会 导致 添加 任何 新 的 边 。 虽 然 最 大 团 的 顶点 数 和 最 初 的 顺序 一 样 ， 但 是 只 有 一 个 顶点 数 
为 3 的 团 ， 所 以 使 用 这 个 顺序 的 VE 更 为 经 济 。 
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首先 消去 Subject 导 致 先 消去 Material， 
Size 和 Material 相 互 连 接 ， 然后 消去 Brightness、Subject， 


最 大 团 项 点 数 为 4 则 不 会 添加 任何 边 ， 使 最 大 团 顶 点 数 为 3 








Material 


sb 





Ce 


图 10-4 ”从 两 种 备 选 变量 消除 顺序 得 出 的 诱导 图 。 左 : Subject-Material-Brightness， 
右 : Material-Brightness-Subject 


最 后 一 种 消去 顺序 很 有 趣 ， 因 为 没有 添加 任何 新 边 。 在 添加 一 条 边 时 ， 您 迫使 打算 
连接 的 变量 出 现在 同一 个 因子 中 。 这 使 得 因子 更 大 ， 推 理 的 代价 更 高 。 如 果 您 采用 一 种 
不 增加 任何 边 的 消去 顺序 ， 就 有 可 能 达到 更 好 的 效果 ， 因 为 在 推理 过 程 中 产生 的 因子 不 
会 将 一 开始 就 共同 包含 在 某 个 因子 中 的 变量 集合 起 来 。 

这 就 自然 产生 了 一 个 问题 : 是 否 总 有 不 增加 任何 边 的 消去 顺序 ? 这 一 答案 与 三 角 化 
的 概念 有 关 。 如 果 所 有 环 都 是 “三 角形 ” 则 称 图 被 “三 角 化 ”了 ; 补充 材料 “三 角 化 


Brightness 
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图 ”解释 了 这 一 概念 的 含义 。 如 果 初 始 VE 图 是 三 角 化 图 ， 则 至 少 有 一 种 不 增加 任何 边 
的 消去 顺序 。 相 反 ， 如 果 初 始 VE 图 不 是 三 角 化 的 ， 不 管 使 用 何 种 消去 顺序 ， 都 至 少 需 
要 增加 一 条 边 。 确 保 初始 VE 图 是 否 三 角 化 的 一 种 方法 (但 不 是 唯一 的 方法 ) 是 从 完全 
没有 环 的 网 络 开 始 。 因此 ， 如果 初始 VE 图 没有 环 , 总 是 可 以 从 图 的 两 端 向 内 消去 节点 ， 
而 不 需要 增加 任何 边 。 
三 角 化 图 

如 果 图 中 的 所 有 环 都 由 三 角形 组 成 ， 则 该 图 是 三 角 化 的 。 从 技术 上 讲 ， 这 意味 着 长 度 为 4 
或 更 大 的 图 中 所 有 回路 的 两 个 不 相 邻 边 之 间 都 存在 交叉 的 边 。 用 一 张 图 就 很 容易 理解 这 一 点 。 




















三 角 化 图 ， 左 侧 的 图 包含 没有 交叉 边 的 回路 A-B-D-C， 所 以 它 不 是 三 角 化 图 。 在 右 侧 的 图 中 ， 
这 个 回路 有 交叉 的 边 B-C， 所 以 它 是 三 角 化 图 。 确 实 ， 它 是 由 三 角形 A-B-C 和 B-C-D 组 成 的 


为 什么 三 角 化 能 够 决定 能 否 在 不 增加 边 的 情况 下 消除 变量 ? 观察 左 侧 的 图 可 以 看 出 ， 如果 
首先 消去 A 或 者 D， 就 将 增加 边 B-C， 而 如 果 先 消去 B 或 者 C， 就 会 增加 边 A-D。 不 管 怎么 
做 ， 都 会 增加 边 。 而 在 右 侧 的 图 中 ， 您 可 以 首先 消去 A 而 不 增加 边 。 此 时 ， 剩 下 的 是 三 角形 
B-C-D， 其 中 的 顶点 都 相连 ， 您 可 以 以 任何 顺序 消去 变量 而 不 会 增加 边 。 

这 是 一 个 通用 的 原则 。 非 三 角 化 图 有 长 度 为 4 或 者 更 大 、 没 有 交叉 边 的 环 。 当 您 第 一 次 消 
除 该 环 中 的 某 个 节点 ， 就 会 增加 一 条 交叉 的 边 。 相 反 ， 在 三 角 化 图 中 ， 总 有 一 个 节点 ， 从 其 开 
始 变量 消除 不 需要 增加 边 。 而 且 ， 在 消去 该 节点 之 后 ， 图 仍然 是 三 角 化 的 ， 所 以 可 以 继续 消除 
而 不 增加 边 。 结 论 是 : 当 且 仅 当 初始 VE 图 是 三 角 化 图 时 ， 存 在 不 增加 边 的 变量 消除 顺序 。 

这 有 何 意义 ? 如 果 图 是 三 角 化 的 ， 您 在 推理 中 产生 的 因子 不 会 大 于 开始 时 使 用 的 因子 。 所 
以 如 果 从 一 开始 就 能 这 样 表现 模型 ， 就 应 该 能 够 高 效 地 进行 推理 。 反 之 ， 如果 图 不 是 三 角 化 的 ， 
您 在 推理 过 程 中 就 可 能 创建 大 得 多 的 因子 。 得 出 好 的 顺序 。 流 行 的 启发 式 方法 之 一 使 用 了 尽 可 
能 避免 增加 边 的 直觉 。 这 种 启发 式 方法 在 每 个 时 点 都 选择 消去 时 在 图 中 增加 最 少 边 的 节点 。 
Figaro 使 用 了 这 种 方法 的 一 个 变种 ， 还 考虑 了 所 涉 变量 的 取 值 数量 。 





























消去 顺序 很 重要 ， 如 何 找 到 一 个 好 的 顺序 ?遗憾 的 是 ， 这 从 计算 上 说 很 难 ， 其 代价 
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通常 与 最 佳 顺序 下 最 大 团 顶 点 数 成 指数 关系 。 但 是 ， 您 可 以 使 用 启发 式 方法 。 




















10.2.2 VE 代数 运算 


















































本 小 节 详 细 说 明 VE 算法 。 如 果 您 不 想 了 解 所 有 这 些 细节 ， 可 以 跳 到 最 后 的 算法 总 结 。 

为 了 理解 VE， 我 们 举 一 个 简单 的 例子 。 您 希望 计算 P(Subject, Brightness = Bright)， 
这 个 概率 由 如 下 的 乘积 之 和 表达 式 定义 : 

Pd,B = Brighb = zs P(D) P(B 1D PCZ1J) Es(B) 

我 们 写 下 PG, B = Brigh) 的 因子 ， 并 明确 每 个 条 目的 计算 方法 。 表 10-11 用 符号 表 
示 了 这 些 计 算 方法 ， 表 10-12 则 展示 了 具体 的 数值 计算 。 
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表 10-11 由 明确 产生 每 个 条 目 得 到 的 P(Brightness) 查 询 因 子 。 因 为 证 据 指定 Brightness = 
Bright， 任 何 Brightness = Dark 的 条 目 被 设置 为 0， 所 以 处 理 证 据 因 子 时 可 以 简单 地 从 计算 中 删 











除 这 些 条 目 
Subject 
P(J = People) P(B = Bright |] = People) P(Z = Small | J] = People) Ep(B = Bright) + 
P(J = People) P(B = Bright |] = People) P(Z = Medium | J = People) Ep(B = Bright) + 
People P(J = People) P(B = Bright |] = People) P(Z = Large | = People) Ep(B = Bright) + 
P(J = People) P(B = Dark | = People) P(Z = Small | J = People) Ep(B = Dark) + 
P(J = People) P(B = Dark | = People) P(Z = Medium | J = People) Ep(B = Dark) + 
P(J = People) P(B = Dark | = People) P(Z = Large | J = People) Ep(B = Dark) 
P(J = Land.) P(B = Bright |] = Land.) P(Z = Small |] = Land.) Esp(B = Bright) + 
P(J = Land.) P(B = Bright |] = Land.) P(Z = Medium |J = Land.) Esp(B = Bright) + 
Se P(J = Land.) P(B = Bright |J= Land.) P(Z = Large |J= Land.) Ep(B = Bright) + 
P(J = Landscape) P(B = Dark|J= Land.) P(Z = Small |J= Land.) Ep(B = Dark) + 
P(J = Landscape) P(B = Dark|J= Land.) P(Z = Medium |J= Land.) Ep(B = Dark) + 
P(J = Landscape) P(B = Dark|J= Land.) P(Z = Large | J = Land.) Ep(B = Dark) 


表 10-12 P(Brightness) 因 子 , 用 CPD 得 出 的 数值 代替 上 表 中 的 各 项 。 数 字 用 不 同 字体 编码 ， 表 
示 其 来 源 因 子 。 用 小 字体 表示 来 自 P(Subject)， 粗 体 表示 来 自 P(Brightness | Subject)， 常 规 字体 
表示 来 自 P(Size | Subject)， 斜 体 表示 来 自 Ee(Brightness)。 这 有 助 于 在 进行 计算 时 跟踪 数字 








Subject 
Be 0.8x0.8x0.25x1+0.8x0.8x0.25x71+0.8x0.8x0.5x71+ 
Se 0.8 x0.2x0.25x0+0.8x0.2x0.5x0+0.8x0.2x0.25x0 
0.2 x0.3x0.25x1+02x0.3x0.25x71+0.2x0.3x0.5xJ 
Landscape 
+02x0.7x0.25x0+02x0.7x0.5x0+0.2x0.7x0.25x0 









































VE 通过 每 次 消去 一 个 答案 中 不 需要 的 变量 进行 这 些 计 算 。 在 我 们 的 例子 中 ， 您 必 
须 消去 变量 Brightness 和 Size。 我 们 首先 消去 Brightness。 将 来 自 提 及 Brightness 的 因子 
中 的 数字 相 乘 ， 还 要 避免 与 其 他 数字 相 乘 。 


















































六 | 
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实现 这 一 目标 的 第 一 步 是 移动 乘积 中 的 所 有 数字 ， 使 来 自 提 及 Brightness 的 因子 的 




















数字 移 到 右 侧 ， 来 自 其 他 因子 的 数字 移 到 左 侧 。 在 我 们 的 例子 中 ， 粗 体 和 斜体 数字 分 别 





























来 自 于 P(Brightness | Subject) 和 Es(Brightness)， 所 以 它们 被 移 到 右 侧 ， 其 他 数字 移 到 左 
侧 。 这 一 操作 是 合理 的 ， 因 为 乘法 交换 律 意味 着 可 以 改变 乘法 中 各 项 的 顺序 。 结 果 如 表 


10-13 所 示 。 注 意 来 自 于 PGBrightness | Subject) 和 Ep(Brightness) 的 粗 体 和 和 斜体 数字 是 如 
J 右 侧 的 。 


移 到 乘积 







































































村 


























需要 注 i 


洽 的 一 点 是 ， 尽 管 我 已 经 说 明 本 身 可 以 移动 的 数字 ， 但 是 表 10-13 提供 了 攻 









































子 的 乘积 之 和 表达 式 ， 正 如 下 式 所 示 ， 您 已 经 将 PGB | 了 和 EsGB) 移 到 没有 提 及 了 的 因 


子 右 侧 。 

















PO, B = Brighb = zzaPO) P(Z |D PGB |D Es(B) 
下 一 步 是 使 用 分 配 率 : 

















axb+axc=ax(b+c) 

















在 我 们 的 例子 中 ， 这 意味 
0.8 x 0.25 x 0.8 x 1 +0.8 x0.25 x0.2x0=0.8 x0.25 x (0.8x1+0.2x0) 
运用 这 一 法 则 ， 可 以 将 表 10-13 中 的 因子 改写 为 表 10-14。 


表 10-13 我 们 的 P(Brightness) 乘 积 之 和 表达 式 ， 来 自 提 及 Brightness 的 因子 的 数字 移 到 右 侧 








自 : 








Subject 
ea 0.8 x0.25 x0.8x71+0.8x0.25x0.8x71+0.8x0.5x0.8x71+ 
0 
EE 08x025x02x0+08x05x02x0+08x025x02x0 
02x0.23Sx0.3x7+02x0.253Sx03x7+02x0.3x0.3x7+ 
Landscape 


表 10-14 取得 表 10-13 


0.2x0.25x0.7x0+02x0.5x0.7x0+0.2x0.25x0.7x0 


中 的 因子 并 创建 仅 涉 及 提 及 Brightness 的 因子 的 内 和 





































































































Subject 
0.8 x0.25 x (0.8 x 1 +0.2x0)+ 
People 0.8 x 0.25 x (0.8 x 1 +0.2x0)+ 
0.8 x0.5x (0.8x71+0.2x0) 
0.2x0.25x(0.3x71+0.7x0)+ 
Landscape 0.2x0.5x(0.3x71+0.7x0)+ 
0.2x0.25 x (0.3x71+0.7x0) 
您 已 经 再 次 进行 了 因子 上 的 运算 ， 创 建 了 仅 包 含 提 及 Size 的 因子 中 的 数字 的 内 和 。 
这 些 数字 就 是 前 一 步 中 移 到 右 侧 的 数字 ; 在 我 们 的 例子 中 ， 就 是 常规 字体 的 数字 。 按 照 
因子 的 说 法 ， 您 已 经 创建 了 如 下 乘积 之 和 表达 式 : 


P(J, B = Bright) = 2z PO) P(Z |D) ZsP(B | Es(B) 
消去 Brightness 的 最 后 一 步 是 计算 乘积 的 内 和 ， 换 言 之 ， 计 算 BpP(B | Ep(B)。 计 











算 的 结果 是 
Brightness, 

















个 因子 。 因 为 这 一 计算 从 提 及 Brightness 和 Subject 的 因子 开始 ， 且 加 总 






































寺 果 因子 仅 提 及 Subject， 该 因子 如 表 10-15 所 示 。 
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我 们 将 这 个 因子 命名 为 Fg， 也 就 是 从 消去 Brightness 中 得 到 的 因子 。 您 可 以 将 这 个 
因子 代入 方程 式 3 得 到 如 下 表达 式 : 
P(]) = 3%zP() P(Z | Fe(J) 
瞧 瞧 , 这 就 是 不 提 及 Brightness 的 乘积 之 和 表达 式 。 您 已 经 成 功 地 消去 了 Brightness， 












































而 且 不 必 将 所 有 因子 相 乘 。 
表 10-15 计算 ZeP(B |」) Ee(B) 得 到 的 因子 。 这 个 因子 中 的 条 目 以 漂亮 的 字体 显示 
Subject 
People 0.8x1+0.2x0=0.8 
Landscape 0.3x1+0.7x0=0.3 





算法 总 结 
我 已 经 非常 详尽 地 说 明了 这 个 过 程 ， 它 很 简单 。 下 面 是 从 乘积 之 和 表达 式 $ 中 消去 
变量 V 的 算法 : 


Eliminate(V, S) { 
Move all factors in S that mention V to the right 






































Move the summation over V so that it encloses only those factors 
Compute the inner sum-of-products involving the factors that mention V 
Replace this sum-of-products in S with the resulting factor 





这 就 是 VE 的 大 部 分 内 容 ， 下 面 是 VE 的 基本 算法 : 


VariableElimination(S) { 
Choose an elimination order O that contains all variables except the 
query variables 
For each variable V in O { 
Eliminate(V, S) 
} 
j 


10.3 VE 的 使 用 


您 已 经 知道 了 VE 的 工作 原理 ， 下 面 讨论 如 何在 实践 中 应 用 VE。 我 将 首先 介绍 在 
Figaro 中 使 用 VE 的 机 制 ， 以 及 不 同 的 变种 。 然 后 ， 我 将 介绍 为 VE 设计 模型 时 的 一 些 
通用 原则 ， 最 后 描述 一 些 实际 应 用 。 

















































































































10.3.1 Figaro 特有 的 VE 考虑 因素 


您 已 经 研究 了 涉及 贝 叶 斯 网 络 的 简单 示例 。 概 率 程 序 可 能 远 比 贝 叶 斯 网 
杂 ， 包 含 更 加 丰富 的 变量 集 、 数 据 结 构 、 控 制 流 甚至 递归 。 笠 运 的 是 ，Figaro 全 面 
es 里 。 




























































































们 站 
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Figaro 中 特有 的 VE 版 本 是 已 经 在 本 书 中 多 次 使 用 的 VariableElimination 算法 。 复 习 
一 下 ，VE 通过 将 查询 目标 列表 传递 给 VariableElimination 构造 程序 运行 ， 后 者 创建 一 个 
算法 ， 然 后 进行 查询 。 例 如 : 
打印 elementl 值 为 0 的 概率 打印 elementl 
val algorithm = VariableElimination(elLlement1，element2) 值 大 于 0 的 概率 
algorithm.start () 
println(algorithm.probability (element1, 0)) : 打印 elementl 
打印 双 精 Println(algorithm.probability (element1l, (i: Int) => i > 0)): 的 概率 分 布 。 
度 元 素 println(algorithm.distripbution(element1) .toList) algorithm.distri- 
element2 “ 关 二 println(algorithm.mean (element2)) pution 返回 一 个 
的 均值 println(algorithm.expectation (element2, (d: Double) => d x 4d) 流 ， 所 以 您 将 其 
打印 element2 平方 的 期 转换 为 一 个 列 
: a a 望 值 以 便 打印 
您 还 看 到 了 只 需 一 行 的 快捷 方式 ; A 
VariableElimination.probability (element, 0) 
VariableElimination.probability(element, (i: Int) -> i > 0) 


Figaro 特有 的 VE 算法 将 概率 程序 转换 成 一 个 巨大 的 贝 叶 斯 
F: 模型 中 可 能 存在 的 变量 数量 有 限 。 这 排除 了 一 些 开放 宇 
型 中 对 象 的 数量 没有 上 限 ， 同 时 也 排除 了 递归 次 数 不 限 的 递归 
连续 分 布 问题 。Figaro 对 此 的 解决 方案 
能 值 的 一 个 小 子 集 , VE 
能 已 经 足够 好 了 ， 尤 其 是 在 模型 中 


要 如 下 条 伯 





































































































网 络 。 这 一 转换 成 功 需 
宙 模 型 ， 在 这 类 模 


司 豆 
上 































































































































































































模型 。 


























步 挖 气 ， 就 可 以 








而 且 ，VE 本 身 是 一 种 离散 算法 ， 难 以 处 开 
是 对 模型 中 出 现 的 每 个 原子 连续 元 素 抽样 一 组 值 。 因为 只 使 用 可 
在 这 种 情况 下 不 再 是 精确 算法 。 但 是 这 对 您 的 目的 可 
没有 太 多 连续 元 素 的 情况 下 。 
如 果 您 希望 坚持 使 用 标准 算法 ,可 以 直接 跳 到 下 一 节 。 但 是 Figaro 团队 不 断 地 尝试 
E 动 最 新 型 的 概率 编程 推理 算法 ，VE 算法 也 不 例外 。 如 果 您 愿意 进 
从 这 些 进 步 中 获 益 。 

















Figaro 的 VE 替代 方案 之 一 惰性 VE 放松 了 对 无 限 递 
解释 超出 了 本 书 的 范畴 ， 但 是 我 希望 























您 意识 到 它 的 存在 。 


归 的 限 





Ys 


惰性 VE 的 主要 观 


制 。 对 这 一 算法 的 完整 


p=] 尔 
心 XE ， 您 可 


以 部 分 扩展 该 模型 ， 在 这 个 部 分 扩展 的 模型 上 运行 VE， 计 算 查 询 答案 的 上 下 界 。 例 如 ， 


















































































































































可 能 没有 上 界 ， 所 以 无 
型 ， 生 成 达到 某 一 上 界 














结构 化 分 解 推理 。 这 个 框架 包含 一 





各 移入 主 软件 包 中 。 (到 您 阅 











想象 生成 一 定 规模 的 图 ， 并 估算 图 的 某 个 属性 的 程序 。 图 的 大 小 
法 应 用 常规 版 本 解决 这 个 问题 。 但 是 惰性 VE 可 以 部 分 扩展 该 模 
的 图 ， 并 用 部 分 扩展 估算 待 估算 属性 的 概率 分 布 。 

Figaro 团队 还 致力 于 新 的 分 解 推理 通用 框架 
个 结构 化 VE 算法 ， 该 算法 在 一 个 试验 性 的 软件 包 ， 很 快 ; 
读本 书 时 ， 它 可 能 已 经 在 那里 了 ) 结构 化 VE 的 思路 是 使 用 概率 
程 。 每 当 链 扩展 的 时 候 ， 创 建 一 个 子 问题 表示 链 函 数 创 建 的 所 























所 有 变量 




















可 以 通过 在 子 问题 上 运行 的 









































单独 VE 过 程 消 3 








程序 的 结构 指导 解 题 过 








9 元素。 这 个 子 问题 内 的 
A 。 这 种 方法 的 主要 好 处 之 一 是 ， 
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如 果 同 一 个 子 问题 在 问题 中 出 现 多 次 ， 第 一 次 的 解决 方案 可 以 重用 。 











10.3.2 ”设计 模型 支持 高 效 的 VE 


现在 ， 您 已 经 理解 了 VE 及 其 复杂 性 ， 如 何在 设计 模型 时 运用 这 些 知识 ?本 节 提 供 









































一 些 技巧 。 
避免 过 多 的 闭环 


最 显而易见 的 一 点 是 尽 可 能 避免 在 模型 中 出 现 没有 交叉 边 的 环 。 如 果 您 有 一 个 没有 交 
又 边 的 环 ， 最 终 就 需要 增加 一 条 边 ， 这 将 增 大 推理 的 代价 。 您 已 经 看 到 ， 如 果 有 一 个 三 角 
化 的 网 络 ， 每 个 长 度 为 4 或 更 大 的 环 都 有 交叉 边 ， 就 可 以 在 不 增加 任何 边 的 情况 下 执行 VE。 

如 果 无 法 完全 避免 环 , 孤立 的 环比 许多 紧密 相连 的 环 更 好 。 图 10-5 展示 了 VE 难以 
解决 的 网 络 的 一 个 示例 。 这 是 您 在 第 5 章 中 见 到 过 的 图 像 恢复 马尔 科 夫 网 络 。 图 中 展示 
了 一 个 4x4 网 络 ， 但 是 您 可 能 需要 解决 数 百 甚至 数 干 个 像素 。 

遗憾 的 是 ， 不 管 选 择 何 种 变量 消除 顺序 ， 都 没有 办 法 避免 增加 边 ， 创 建 顶点 数量 为 
图 像 短 边 像素 数 的 团 。VYE 的 代价 与 网 格 的 大 小 成 指数 关系 。 因 此 ， 尽 管 VE 从 原理 上 
适合 于 此 类 网 络 ， 在 实践 中 需要 花费 极 长 的 时 间 。 



























































































































































图 10-5 第 5 章 中 的 图 像 恢复 网 络 重 现 。 这 种 网 格 的 VE 与 一 侧 的 图 像 数量 成 指数 关系 


分 解 有 许多 父 变量 的 CPD 

造成 VE 代价 的 另 一 个 因素 是 开始 时 的 因子 大 小 。 即 使 没有 增加 节点 ，VE 算法 也 
可 能 因为 有 大 的 因子 而 长 时 间 运 行 。 如 果 原 始 因子 来 自 CPD，CPD 中 提 及 的 变量 等 于 
父 变量 数量 加 1 〈 子 变量 )。 这 意味 着 因子 的 大 小 与 父 变量 的 数量 成 指数 关系 。 因 此 ， 您 
应 该 努力 减 小 父 变量 的 数量 。 

发 生 这 种 情况 的 实际 场景 之 一 是 Apply 元 素 。Figaro 提供 的 Apply 元 素 最 多 可 以 
有 5 个 参数 。 如 果 您 有 一 个 5 个 参数 的 函数 ， 就 会 有 一 个 包含 6 个 变量 的 因子 。 如 果 
这 些 参数 每 个 有 10 种 可 能 值 ， 参 数值 的 组 合 就 有 100000 种 。 这 些 因 子 很 快 就 会 变 成 
巨型 因子 。 
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对 Apply 第 常 有 效 的 一 种 技巧 是 将 其 分 解 为 多 个 函数 。 例 如 ， 假 定 您 想 将 4 个 二 项 
分 布 相 加 ， 可 以 使 用 如 下 代码 : 





val x = 
Apply (Binomial (10, 0.1), 
Binomial (10, 0.3), 
2 


每 个 二 项 分 布 有 11 个 可 能 值 (0 一 10)， 所 以 参数 值 


一 个 巨大 的 因子 。 更 好 的 表现 形式 是 将 上 述 代码 分 解 为 3 个 加 法 ， 











val xl12 = Apply (Binomial (10, 
[ 吉 坟 和- 

val x34 = Apply (Binomial (10, 
[人 

val x = Apply (x12, x34, (x12: 


Binomial (10, 
Ti 


Binomial (10, 0.2), 


0.4)， 


TInt X45 Tnty 


OT 
Tt 


Binomial (10, 0.2), 

| 

UU 3) "Binomial(tl0; 0 
Int) => x3 + x4) 

Int, x34: Int) 


一 > X 
.4), 








Cs he ol se oi 

















的 组 合 有 14641 种 ， 这 会 造成 














每 个 加 法 有 2 个 参数 : 











=> X12 + x34) 


段 代码 包含 3 个 函数 , 每 个 函数 有 两 个 参数 ,前 两 个 函数 的 参数 组 合 只 有 121 种 。 


x12 和 x34 的 取 值 为 0~20 (10+10),， 所 























样 ， 因 子 中 总 共有 683 行 ， 远 

















远 优 于 之 前 的 14641 行 。 














实际 上 ， 对 于 加 法 这 种 可 能 


























用 到 任 


Ei VW 





























经 在 FoldLeft 构造 程序 中 提供 了 

















系列 元 素 的 迭代 运算 。 例 如 ， 在 Scala 中 ， 
val x = List(1, 2, 3, 4) 
val y = x.foldLeft (0) ((x1: Int, x2: Int) => X1 + x2) 


其 中 的 y 为 x 列表 项 目的 总 和 。 类 似 地 ， 可 以 使 用 








的 如 下 Figaro 结构 : 


Foldbefttgy txls Ent RZ .TNE 
Binomial (10, 0.1), 
Binomial (10, 0.3), 

) 


Binomia 
Binomial 





这 将 自动 地 分 解 为 多 个 函 
Reduce, 

利用 封装 

如 果 您 曾经 使 用 过 
































) 


1 (10, 0.2), 


(10, 0.4) 


| 
数 ， 


以 第 3 个 函数 参数 值 的 组 合 为 21x 21 = 441。 


com.cra.figaro.library.compound 包 : 


每 个 函数 有 2 个 参数 。 
分 别 与 Scala 的 foldRight 和 reduce 类 似 。 



































分 不 必要 的 














部 分 隐藏 对 象 的 所 有 细节 ， 表 现 这 些 

















型 的 其 余部 分 相互 作 / 
知晓 的 对 象 相关 细节 ， 这 是 模 
有 效 利用 


























封装 的 关键 是 使 接口 变 小 。 这 是 标准 


这 














意 数量 参数 的 运算 ， 可 以 很 自然 地 将 其 分 解 为 
一 系列 Apply 运算 ， 每 个 运算 有 两 个 参数 。 幸 运 的 是 ， 您 不 必 自 己 实 现 分 解 。Figaro 已 
这 一 功能 。FoldLeft 与 Scala 的 foldLeft 类 
您 可 以 使 用 如 下 代码 : 

















似 ， 适用 于 一 


























Figaro 还 提供 了 FoldRight 和 











面向 对 象 编程 ， 就 会 熟悉 如 下 思路 : 封装 有 助 于 将 对 程序 其 余部 
节 隐 藏 在 对 象 内 部 。 封 装 对 VE 也 有 好 处 。 









































如 果 对 象 的 接口 对 模型 的 其 余 























节 的 所 有 内 部 元 素 就 在 对 象 内 部 被 消去 ， 不 与 模 











j。 消 去 内 部 元 素 的 结果 是 接口 上 的 一 个 因子 。 这 个 因子 捕 














型 的 其 余部 分 所 关心 的 。 





























捉 所 需 








的 OO 设计 指导 方针 , 所 以 好 的 OO 
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设计 和 高 效 的 推 














里 是 相辅相成 的 。 这 方 重 

















型 。 在 这 个 模型 






































， 您 为 打印 机 、 网 络 、 





天 














用 单一 变量 与 模 





型 的 其 余部 分 交互 。 例 如 











，Printer 对 象 通过 State 变量 与 模型 的 其 余部 


的 例子 之 一 是 第 7 章 中 的 计算 机 系统 诊断 模 
软件 和 用 户 创建 了 单独 的 对 象 。 每 个 对 象 使 






























































分 交互 。 这 意味 着 ，Printer 对 象 的 所 有 内 部 结构 不 管 多 么 复杂 ， 都 可 以 总 结 为 单一 变 





量 上 的 因子 。 


中 






























































为 了 最 大 限度 地 利用 这 一 概念 ， 您 可 以 使 用 模型 的 层次 化 分 解 。 例 如 ，Printer 对 象 
可 能 包含 用 于 Paper Feed〈 进 纸 ) 和 Toner 


ES 





〈 墨 粉 ) 的 嵌 套 对 象 。 这 些 骨 套 对 象 将 通过 一 





























个 小 型 接口 与 Printer 通信 ， 后 者 也 使 用 自 i 








的 小 型 接口 与 模型 的 其 余部 分 通信 。 下 面 的 



































代码 说 明 如 何 实现 这 一 点 。 需 要 确定 的 是 ， 如 果 您 想 要 进行 某 个 元 素 的 查询 或 者 证 据 提 


供 


以 tonerLowIndicatorOn 元 素 被 放 至 


class Printer { 




















val PowerButtonon = Flip(0.95) 


























kt， 它 就 不 能 是 私有 的 。 在 下 面 的 例子 中 ， 您 希望 发 布 关于 墨 粉 不 足 指示 灯 的 证 据 ， 所 
| 檬 套 的 Toner 私有 类 之 外 , 它 对 于 Printer 类 是 公共 的 : 


-一 Printer 接口 的 一 部 分 
































private val heavyUsage = Flip(0.5) | 
封装 于 Printer 内 部 


class Toner { 


private val adequateColorToner = 


If (heavyUsage, Flip(0.8), Flip(0.95)) 


private val adequateBlackToner = 


封装 于 Toner 内 部 








If (heavyUsage, Fl1lip(0.7), Flip(0.9)) -一 


} 


private val toner = new Toner 


val tonerLowIndicatoron = 


If (powerButtonon, 

















Constant (false)) 


val state = 


Apply (powerButtonon, 


val adequateToner = adequateColorToner | adequateBlackToner 
| Toner 接口 的 
一 部 分 
封装 在 Printer 内 部 的 息 套 
对 象 
CPD (toner.adequateToner, 放 在 Toner 之 外 ， 使 
true -> Flip(0.1), 其 可 见于 模型 的 其 余 
false -> Flip(0.99)), 部 分 
toner.adequateToner, pine 接口 的 一 部分 
(power: Boolean, toner: Boolean) => { 


if (!power) "out 


else if (toner) 'good 


elise 


}) 


所 





'poor 








您 还 可 以 在 不 明确 使 用 OO 设计 的 情况 下 得 到 封装 的 好 处 。 链 结构 也 提供 封装 。 链 
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涉及 一 个 父 元 素 和 一 个 子 元 素 ， 对 于 父 元 素 的 每 个 值 ， 











在 对 父 元 素 值 应 用 链 函数 时 创建 


一 组 元 素 。 只 要 这 些 元 素 不 使 用 链 之 外 的 元 素 ， 它 们 就 通过 链 的 父 元 素 和 子 元 素 封装 在 








链 中 。 如 果 使 用 了 链 之 外 的 元 素 ， 














地 使 用 这 种 封装 。 
简化 网 络 


使 用 的 元 素 将 成 为 接口 的 一 部 分 
小 的 元 素数 量 ， 就 仍然 可 以 从 封装 中 获 益 。 确 实 ， 前 一 小 节 简 短 4 























。 所 以 ， 只 要 保持 较 
介绍 的 结构 化 VE 明确 





如 果 您 的 网 络 对 于 VE 来 说 过 于 复杂 ， 但 是 希望 使 用 精确 的 VE 算法 ， 就 必须 简化 
网 络 。 这 可 以 通过 删除 边 或 者 删除 节点 来 完成 。 您 





性 最 低 ， 删 除 能 造成 最 多 节省 。 入 
用 简化 模型 的 VE 的 好 处 是 ， 您 
包含 的 内 容 。 

















10.3.3 VE 的 应 用 


























寻 为 VE 是 完美 计算 您 所 感 兴 趣 的 概率 的 准 而 
模型 的 现实 应 用 。 情 况 并 非 如 此 。VE 得 至 


前 化 模型 的 一 种 











必须 判断 哪些 边 和 节点 与 模型 的 相关 










































































I 广泛 的 应 用 ， 























代 方 案 是 使 用 近似 推理 算法 ， 但 是 使 
将 得 到 与 模型 相关 的 准确 答案 ， 可 以 精确 地 控制 模型 中 





























算法 , 您 可 能 认为 它 不 适合 于 具有 复杂 
关键 的 问题 不 是 模型 的 规模 ， 而 





是 模型 是 否 有 合适 的 结构 一 一 特别 是 ， 是 否 能 够 消去 变量 且 不 在 VE 图 中 增加 太 多 的 边 ， 














保持 VE 图 中 最 大 团 的 规模 较 小 ， 


语音 识别 














杂 度 较 低 。 本 小 节 描 述 广泛 应 用 





符合 VE 要 求 的 一 类 模型 是 第 8 章 中介 
展示 了 从 第 8 章 重 现 的 一 个 HMM。 











的 状态 变量 和 每 个 时 点 依赖 状态 变量 的 观测 值 。 























HMM 有 许多 应 用 ， 流 行 的 应 用 之 





























过 的 隐 
0 








一 是 语音 识别 。 在 语音 识别 中 ， 您 通常 有 一 个 由 























VE 的 两 个 领域 。 








马尔 科 夫 模型 (HMM)。 图 10-6 


包含 一 个 随时 间 变 化 
































一 组 随时 间 变 化 的 音频 信号 组 成 的 观测 序列 ， 希 望 推 断 其 中 说 出 的 单词 。 








图 10-6 第 8 章 中 的 隐 含 马尔 科 夫 模型 重 现 
每 个 单词 的 模型 是 一 个 HMM， 模 型 中 有 一 系列 状态 ， 






































对 应 于 说 话 者 在 说 出 单词 期 














间 发 出 的 声音 类 型 。 例 如 ， 如 果 说 话 者 说 出 “car” 这 个 单词 ， 他 可 能 首先 发 出 “k” 的 
的 时 间 是 不 确定 的 。 某 个 音 是 否 存在 





机 然后 是 “ah” 和 “rT 329 的 音 。 

















发 出 i 这 些 音 所 花费 
是 不 确定 的 ， 例 如， 有 些 人 不 发 “car” 中 “I” 
0 与 此 同时 ， a 





























的 音 。 这 种 不 确 














定 的 发 音 过 程 被 编码 











4 编码 声音 信号 特征 依照 一 定 的 概率 取决 于 说 














至 


话 者 所 发 的 音 。 这 村 
在 做 出 关于 HMM 的 推理 
号 )， 和 希望 推 








开 到 4 个 时 间 步 ， 


关于 这 个 网 络 ， 值 得 注意 的 是 所 有 节点 的 父 节点 都 不 超过 1 个 。 这 说 明 当 您 构造 该 
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FE， 单 词 的 表达 很 好 地 模型 化 为 HMM。 
时 ， 您 通常 有 一 个 特定 的 观测 序列 (如 一 定 长 度 的 声音 信 
出 隐 含 的 状态 。 例 如 ， 您 可 能 有 一 个 长 度 为 4 的 序列 ， 可 以 将 HMM 展 
到 如 图 10-7 所 示 的 贝 叶 斯 网 络 。 



























































时 ， 不 需要 连接 任何 节点 ， 从 而 形成 图 10-8 所 示 的 图 。 

















图 10-7 中 HMM 的 端正 医 
































除 一 个 变量 ， 


除 顺 序 不 需要 在 











仔细 观察 


名 











测 值 也 是 如 此 。 所 有 这 些 连接 组 成 了 顶点 数 为 2 的 团 。 没有 全 部 互相 连接 的 3 个 变量 ， 
所 以 最 大 团 顶 点 数 为 2。 不管 观测 序列 有 多 长 ， 将 HMM 展开 为 多 少 个 时 间 步 ， 上 述 情 








个 需要 注意 的 是 ， 图 10-8 中 的 图 没有 环 。 如 您 所 见 ， 这 意味 着 有 一 个 变量 消 
图 中 增加 任何 边 。 例 如 ， 假 定 您 对 CC) 的 后 验 概率 感 兴趣 ， 可 以 按照 如 
下 顺序 消除 变量 : P(0)、C(C0)、PQ)、C(1)、P(2)、P(3)、C(3)。 按 照 这 个 顺序 ， 每 当 消 
它 就 处 于 图 的 边缘 并 且 只 连接 一 个 其 他 变量 ， 所 以 不 需要 增加 边 。 所 以 ， 
到 10-8 中 的 图 也 是 这 一 变量 消除 顺序 的 VE 诱导 图 。 

10-8 就 会 发 现 ， 相 邻 的 一 对 隐 含 状态 相连 ， 每 个 隐 含 状态 及 其 对 应 观 




































































因此 , HMM 中 VE 的 代价 与 观测 序列 长 度 成 线性 关系 ,这 就 是 VE 对 于 HMM 


是 有 效 算法 的 原因 。 





识别 中 用 到 HMM 推理 的 一 个 变种 。 首 先 ， 您 通常 对 特定 隐 含 状态 不 感 兴趣 。 


9 章 中 的 内 容 ， 贝 叶 斯 推理 




















希望 知道 给 定 HMM 下 观测 序列 的 概率 。 例 如 , 假定 您 不 确定 说 话 者 说 的 是 “car” 
“jar”， 和 希望 确定 哪 一 个 单词 更 有 可 能 。 您 可 以 使 用 贝 叶 斯 推理 实现 这 一 目标 。 回 




































































中 茶 个 事物 的 后 验 概率 与 其 先 验 概率 和 似 然 率 的 乘积 成 








国 。 先 验 概率 可 能 表达 “car” 比 “jar” 更 常用 这 一 事实 , 所 以 在 缺乏 证 据 的 情况 下 ， 











280 


您 相信 “car” 的 可 能 性 更 大 。 
和 “jar” 的 频 度 )。 但 是 在 对 


第 10 章 








大 











先 验 通常 从 数据 





子 分 解 推理 算法 













































































学 习 而 得 (人们 使 用 单 
单词 进行 分 类 的 时 候 ， 先 验 概率 是 给 定 的 。 























词 “car” 








已 知 单词 为 “car” 的 情况 











下 观测 到 的 语音 序列 的 


概率 ,“jar” 的 情况 也 类 似 。 这 个 概率 由 “car” 或 “jar” 的 HMM 定义 。 换 言 


之 ， 为 了 计算 似 然 率 ， 您 应 该 计算 HMM 中 观测 序 允 





















































图 ”与 此 同时 ,“car” 的 似 然 率 是 

实现 上 述 计算 的 简单 方法 之 一 是 消去 所 
化 因子 等 于 证 据 的 概率 。 遗 憾 的 是 ，Figaro 目 
但 是 我 希望 很 快 就 能 增加 这 个 接口 
我 们 将 在 第 12 章 中 详细 讨论 。 特 别 是 ， 其 中 有 
的 表现 本 质 上 和 HMM 上 的 VE 相同 。 











要 在 语 








包含 音频 序列 示例 和 所 说 单词 的 标签 。HMM 参数 的 学 习 


习 模型 参数 。 


i 


章 识 别 这 样 的 应 用 ， 











自然 语言 理解 


HMM 不 是 适合 VE 推理 



































使 月 





。 不 过 Figaro 提 



































| 的 概率 。 
了 变量， 观察 最 后 的 规格 化 因子 。 这 个 规格 













































































前 没有 访问 这 个 规格 化 因子 的 方便 接口 ， 
供 了 其 他 用 于 计算 证 据 概 率 的 算法 ， 
个 基于 置信 传播 的 证 据 概率 算法 ， 它 








月 HMM， 还 必须 从 数据 中 学 习 模 型 参数 。 数 据 通 常 


























通常 也 结 


合 VE 和 期 望 最 大 化 























( expectation maximization，EM) 算法 实现 。 您 将 在 第 12 章 中 学 习 如 何 使 

















] EM 算法 学 



































的 唯一 常见 结 





构 。 在 EE 














然 语 言 处 理 中 ， 往 往 使 











语法 分 析 





树 〈 也 称 解 析 树 ) 表示 句子 的 组 成 方式 。 句 子 的 构造 方法 被 称 作 语法 分 析 ( 也 称 解 析 )。 





图 10-9 展示 了 句子 “The cat drank milk”( 猫 喝 牛 奶 〉 的 语法 分 析 树 示 
析 的 最 高 级 别 是 符号 Sentence (句子 )， 对 应 于 整个 句子 。 
如 何 分 解 为 名 词 短语 和 动词 短语 符 























词 “drank milk”。 这 样 ， 语 法 分 析 描 述 了 句子 的 层次 结构 。 


句子 
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动词 短语 


drank 


名 词 短 


名 词 


milk 


语法 分 析 显 示 这 个 顶级 
号 。 名 词 短语 包含 单词 “The cat”， 动 词 短 语 包含 单 








列 。 语 法 分 


符号 
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句子 “The cat drank mik” 的 语法 分 析 。 这 个 句子 由 一 个 名 词 短语 和 一 个 动词 短语 组 成 ， 动 词 


短语 又 由 一 个 动词 ( 单词 “drank”) 和 一 个 名 词 短语 组 成 




















在 自然 语言 理解 














， 常 见 的 任务 之 一 是 确定 给 定 句 子 的 正确 








解析 ， 这 有 助 于 理解 名 
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子 。 语 法 编码 了 构造 句子 的 规则 。 这 些 规则 往往 涉及 选择 。 例 如 ， 动 词 短 语 可 以 由 一 个 
动词 (如 人 句子 “The cat sat.”) 或 者 由 一 个 动词 跟 上 一 个 名 词 短 语 (“The cat drank milk.”) 
组 成 。 概率 语法 用 概率 表示 这 些 选择 ， 人 们 已 经 发 现 它 在 生成 正确 解析 上 很 有 效 。 例如， 
动词 短语 仅 由 动词 组 成 的 概率 可 能 为 40%, 而 由 一 个 动词 短语 加 上 一 个 名 词 短语 的 概率 
为 60%。 

概率 上 下 文 无 关 语法 ( probabilistic context-free grammar，PCFG ) 是 一 种 特别 简 生 
的 概率 语法 ， 因 为 简洁 和 易于 推理 而 大 受 欢 迎 。 在 此 不 对 PCFG 的 定义 详细 解释 ， 但 
PCFG 的 主要 特点 是 语法 分 析 中 的 不 同时 点 做 出 的 决策 相互 独立 。 这 是 使 VE 可 以 
PCFG 上 有 效 工 作 的 必 备 属性 。 

PCFG 的 思路 是 ， 对 于 句子 的 每 个 非 空 子 串 ， 都 有 一 个 变量 表示 子 串 相关 的 符号 。 
在 我 们 的 例子 中 ， 这 些 子 串 是 The、cat、 drank、 milk、 The cat、 cat drank、 drank 
milk、T 了 he cat drank、 cat drank milk 和 The cat drank milk。 根 据 PCFG 的 规则 ， 因 为 
“The cat drank milk” 可 以 由 “The cat” 和 “drank milk” 组 成 ,“The cat drank milk” 的 
符号 可 能 影响 “The cat” 和 “drank milk” 的 符号 。 这 一 通用 过 程 定义 了 所 有 变量 上 的 
贝 叶 斯 网 络 。 
在 这 个 网 络 上 ， 您 可 以 从 底 向 上 消除 变量 ， 确 定 一 个 句子 的 解析 。 例 如 ， 您 可 以 从 
对 应 于 各 个 单词 的 变量 开始 。 在 消去 所 有 变量 之 后 ， 可 以 消去 对 应 于 长 度 为 2 的 子 串 的 
变量 。 根据 PCFG 的 独立 性 假设 , 这 些 变量 也 都 可 以 单独 消去 。 按照 这 一 方式 继续 向 上 ; 
在 任何 时 候 ， 消 除 长 度 低 于 n 的 所 有 子 串 对 应 的 变量 之 后 ， 可 以 独立 地 消去 长 度 为 n 的 
子 串 对 应 的 变量 。 

这 样 做 的 结果 是 ， 基 于 PCFG 的 VE 代价 与 句子 长 度 的 立方 成 正比 。 对 于 大 部 分 应 
用 中 遇 到 的 典型 句子 ， 这 是 可 行 的 ， 所 以 它 成 为 了 广 为 使 用 的 算法 。 往 往 ， 您 对 符号 上 
的 概率 分 布 并 不 感 兴趣 ， 而 是 希望 推导 最 可 能 的 解析 。 这 可 以 归 入 最 可 能 解释 查询 的 类 
别 。 在 第 12 章 中 ， 您 将 学 习 这 些 查 询 的 有 关 知 识 ， 包 含 用 于 计算 PCFG 最 可 能 解释 的 
VE 算法 。 
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当 您 能 够 完成 VE 的 运行 时 ， 它 产生 准确 的 结果 。 遗 憾 的 是 ， 有 时候 您 可 能 不 愿 ; 
对 模型 进行 足够 的 简化 ， 以 运行 VE。 您 已 经 知道 ，VE 的 复杂 度 和 所 使 用 变量 消除 顺 
的 诱导 图 中 最 大 团 的 顶点 数 成 指数 关系 。 如 果 必 须 增加 过 多 的 边 而 使 诱导 图 过 于 密集 
么 办 ? 事 运 的 是 ， 被 称 作 置 信 传 播 〈belief propagation，BP) 的 近似 算法 能 够 很 好 地 处 
理 这 种 情况 。 本 书 不 介绍 BP 的 完整 细节 ， 但 是 我 将 介绍 足以 帮助 您 理解 其 工作 方式 和 
使 用 场合 的 基本 原理 。 
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10.4.1 BP 基本 原理 


BP 使 用 端正 图 (初始 VE 图 ) 运行 ， 不 增加 边 。 只 要 端正 图 中 最 大 的 团 不 太 大 ， 
BP 就 是 高 效 的 。 由 于 不 需要 增加 边 ，BP 可 以 避免 创建 很 大 的 团 ， 这 使 它 能 够 实现 比 
VE 更 快 的 推理 速度 , 但 是 需要 付出 一 定 的 代价 。 增 加 这 些 边 对 于 正确 的 推理 是 必要 的 ， 
所 以 不 增加 边 将 导致 误差 。 不 过 ， 即 使 不 增加 这 些 边 ， 推 理 也 可 以 近似 于 正确 。 

在 10.2.1 小 节 中 您 已 经 学 到 ,如 果 端 正 图 是 三 角 化 的 ,就 有 某 些 变量 消除 顺序 在 产生 
诱导 图 时 不 需要 增加 边 。 因 此 ， 如 果 在 三 角 化 图 上 运行 BP， 它 产生 的 是 正确 的 答案 。 实 
际 上 ，BP 和 VE 在 三 角 化 图 中 的 复杂 度 相同 。 但 是 如 果 在 非 三 角 化 图 上 运行 BP， 它 就 是 
一 个 近似 算法 ， 可 能 远 比 VE 高 效 。 非 三 角 化 图 上 的 BP 称 作 多 环 ( Loopy ) BP 算法 。 

BP 是 一 种 消息 传递 算法 ， 理 解 它 的 最 好 方式 是 考虑 在 三 角 化 图 上 的 运行 ， 在 这 种 
情况 下 它 是 精确 算法 ， 和 VE 一 样 解 乘积 之 和 表达 式 。 但 是 它 并 不 通过 使 用 代数 规则 操 
纵 表达 式 求解 ， 而 是 通过 在 网 络 节点 之 间 传 递 消息 解 题 。 这 些 消息 基于 因子 运算 。 这 里 ， 
我 不 打算 介绍 消息 的 计算 方法 ， 但 是 这 些 消息 模拟 VE 执行 的 因子 乘积 和 求 和 运算 。 

不 过 ，BP 和 VE 之 间 存 在 重大 差异 。BP 同时 为 网 络 中 所 有 变量 上 的 查询 执行 这 些 
计算 。 在 运行 BP 之 后 ， 可 以 得 到 给 定 证 据 情 况 下 任何 变量 的 后 验 概 率 。 在 三 角 化 网 络 
中 ， 只 要 您 组 织 消 息 以 正确 的 方式 传递 ，BP 可 以 在 网 络 上 的 两 次 传递 中 实现 上 述 目标 。 
(遗憾 的 是 ， 您 将 会 看 到 ，Figaro 无 法 组 织 消息 实现 该 目标 ， 所 以 需要 两 次 以 上 的 传递 ， 
但 是 这 一 属性 在 BP 算法 的 原理 上 是 成 立 的 ) 这 是 BP 相对 VE 的 重要 优势 , 即使 在 三 角 
化 图 中 ， 如 果 您 感 兴趣 的 是 查询 多 于 一 个 变量 ， 这 一 优势 就 存在 。 
在 非 三 角 化 网 络 中 ，Loopy BP 的 工作 方式 和 VE 相同 , 但 是 它 不 会 在 两 次 传递 (如 
果 消 息 组 织 得 当 ) 后 终止 , 而 是 在 您 所 指定 的 时 间 长 度 内 重复 执行 。 消息 在 网 络 上 传递 ， 
如 果 端 正 图 有 多 个 环 ， 消 息 还 将 在 环 中 传递 。 您 可 以 重复 任意 次 运行 BP， 得 到 给 定 次 
数 重复 之 后 的 最 佳 答案 。 理 想 情 况 下 ， 您 重复 运行 的 次 数 越 多 ， 得 到 的 答案 越 接近 正确 
答案 。 
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10.4.2 ”Loopy BP 的 属性 


Loopy BP 的 有 效 性 有 些 令 人 吃惊 ， 其 原因 和 统计 物理 学 有 关 。 简 言 之 ，Loopy BP 
计算 网 络 的 “ 贝 特 自由 能 ” 在 此 我 不 对 这 个 概念 进行 详细 的 介绍 。 贝 特 自由 能 可 用 于 
近似 计算 网 络 中 变量 的 后 验 分 布 ， 但 是 不 能 得 到 完全 相同 的 结果 。 

随 着 Loopy BP 的 迭代 次 数 越 来 越 多 ， 在 许多 情况 下 ， 它 应 该 收敛 于 贝 特 自由 能 。 
遗憾 的 是 ， 贝 特 自由 能 与 后 验 概率 的 近似 程度 得 不 到 保证 。 筹 解 Loopy BP 的 精度 ” 补 
充 材料 提出 了 两 个 几乎 完全 相同 的 示例 程序 。 其 中 一 个 程序 中 Loopy BP 得 到 正确 的 答 
案 ， 在 另 一 个 程序 中 则 差 得 很 远 。 
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理解 Loopy BP 的 精度 
考虑 下 面 两 个 程序 。 
好 的 Loopy BP 示例 
val el = EDOS SI) 


val e21: Element [Boolean] = Applyl(el, (b: Boolean) => b) 
val e31: Element [Boolean] = Apply(e21, (b: Boolean) => b) 


二 a = > i 
val e22: Element [Boolean] Apply (el, (b: Boolean) b) 这 在 e31 和 e32 之 间 
val e32: Element [Boolean] = Apply(e22, (b: Boolean) => b) 随机 选择 

Val e4: Element[Boolean] = Dist(0.5 -> e31, 0.5 -> e32) 


printin (BeliefPropagation.probability(e4, true)) 
println(VariableElimination.probabilityl(e4, true)) 


不 好 的 Loopy BP 示例 


val el = Elip(0s) 
val e21: Element [Boolean] 


Apply (el, (b: Boolean) => b) 


val e31: Element [Boolean] = Apply(e21, (b: Boolean) => b) 

val e22: Element [Boolean] = Applyl(el, (b: Boolean) => b) 涯 让 呈 公 党) e31 和 e32 
val e32: Element [Boolean] = Apply(e22, (b: Boolean) => b) 的 值 相等 ， e4 为 真 
val e4: Element[Boolean] = e31 === e32 


printin (BeliefPropagation.probability/(e4, true)) 
println(VariableElimination.probabilityl(e4, true)) 


这 两 个 程序 首先 打印 BP 产生 的 “e4 为 真 ”概率 ， 然 后 打印 VE 产生 的 准确 答案 。 近 似 计 
算 做 得 越 好 ， 与 答案 的 距离 就 越 小 。 如 果 运 行 第 一 个 程序 ， 两 个 算法 都 将 产生 答案 0.5， 也 就 
是 说 这 一 近似 计算 是 完美 的 。 对 于 第 二 个 程序 ，BP 的 结果 为 0.5，VE 的 结果 为 1.0， 近 似 计算 
的 结果 很 糟糕 。 

发 生 了 什么 事 ? 两 个 程序 的 结构 完全 相同 。 这 些 程序 的 端正 图 可 以 在 下 图 中 看 到 。 实际 上 ， 
两 个 程序 的 唯一 差异 是 e4 的 定义 。 














Loopy BP 示例 的 端正 图 ，e31 和 e32 之 间 存 在 一 条 边 ， 因 为 它们 都 是 e4 的 父 变量 。 该 网 
络 包 含 一 个 没有 交叉 边 的 环 e1-e21-e31-e32-e22， 所 以 它 是 非 三 角 化 图 
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义 可 以 发 现 ， 秘 密 就 在 e32 和 e31 决定 e4 时 机 
在 e31 和 e32 之 间 随 机 选择 。e31 和 e32 在 决定 e4 时 没 
影响 ， 反 之 亦 然 。 
为 真 。e31 和 e32 在 决定 e4 时 有 极端 的 相互 人 
值 ， 否 则 知道 e31 的 值 无 法 
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Loopy BP 的 性 能 还 需要 说 明 一 点 : 它 甚 至 不 能 
传递 时 , 它们 在 一 次 迭代 和 下 一 次 迭代 之 间 摇 摆 不 定 。 幸 运 的 是 ， 这 种 
更 重要 的 问题 是 Loopy BP 近似 人 
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最 后 介 


Figaro 特有 的 BP 考虑 因素 


运行 BP 的 关键 问题 是 采用 多 少 次 迭代 。 运 行 BP 时 ， 
肯定 迭代 次 数 。 可 以 将 迁 代 次 数 作为 算法 创建 的 一 个 参数 ， 例如 : 


val algorithm = BeliefPropagation (100， 
algorithm.start () 


printin(algorithm.probability (element, 


先 介 绍 在 Figaro ! 
绍 一 些 实际 应 用 。 
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图 ”使 用 任意 时 间 算 法 。 在 这 种 情况 下 ,您 不 指定 迭代 次 数 , 而 是 运行 任意 的 时 长 。 
为 了 唤醒 您 对 任意 时 间 算 法 的 记忆 ， 可 以 运行 如 下 程序 : 


val algorithm = BeliefPropagation (element) 














algorithm.start () 
Thread.sleep (1000) 











:> Println(algorithm.probability (element, 0)) 等 待 1 秒 
-i Thread.sleep (1000) EJ 
案 估算 0 (element, 0)) | 第 二 次 答案 估算 ( 结 
完成 时 杀 死 任意 2 
时 间 算 法 以 释放 
线程 很 重要 


























加 ”使 用 单行 快捷 方式 如 BeliefPropagation.probability(element, 0)。 这 种 快捷 方式 使 
默认 迭代 次 数 ， 如 果 想 要 指定 迭代 次 数 ， 就 必须 使 用 长 形式 。 

应 该 采用 多 少 次 迭代 ?Figaro 使 用 BP 的 异步 形式 ， 在 这 种 形式 中 ， 消 息 在 网 络 中 
传递 的 顺序 不 受 控制 。 一 般 来 说 ， 如 果 想 保证 信息 从 一 个 节点 到 达 另 一 个 节点 ， 友 代数 
量 应 该 至 少 等 于 节点 之 间 的 距离 。 在 10.4.1 小 节 中 我 曾经 说 过 ， 在 一 个 非 多 环 网 络 中 ， 
BP 可 以 在 网 络 上 的 两 次 传递 中 得 到 正确 答案 。 对 于 Figaro， 这 意味 着 迭代 次 数 应 该 至 
少 两 倍 于 网 络 直 径 加 1。( 网 络 直 径 是 两 个 节点 间 的 最 大 距离 ) 也 就 是 说 ，Figaro 的 BP 
在 直径 较 小 的 网 络 上 更 高 效 。 

对 于 Loopy BP， 情 况 也 类 似 。 如 果 您 使 用 的 近 代 数量 等 于 网 络 直 径 ， 就 等 同 于 绕 
网 络 一 周 。 所 以 如 果 自 己 选择 迭代 数量 ， 应 该 用 直径 乘 以 想 要 的 圈 数 。 迭 代数 量 不 一 定 
是 准确 的 ， 只 需要 选择 确保 您 在 网 络 中 来 回 多 次 的 迭代 次 数 。 常 用 的 经 验 法 则 是 绕 网 络 
10 圈 。 如 果 不 想 操心 这 个 参数 ， 可 以 使 用 该 算法 的 任意 时 间 版 本 。 


10.5.2 ”设计 模型 以 支持 高 效 的 BP 


BP 的 复杂 度 取决 于 端正 图 中 最 大 团 的 顶点 数 ， 而 不 是 VE 的 诱导 图 。 而且, 您 知道 
BP 在 端正 图 是 三 角 化 图 时 是 精确 算法 。VE 中 的 许多 考虑 因素 也 适用 于 BP， 但 是 也 有 
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一 些 BP 特有 的 考虑 因素 。 
避免 过 多 的 环 











虽然 环 对 BP 复杂 度 的 影响 不 像 VE 中 那样 大 , 但 是 确实 会 给 BP 带 来 误差 , 您 已 经 
了 解 ， 这 种 误差 可 能 难以 估计 。 环 越 多 ， 误 差 的 可 能 性 越 大 。 因 此 ， 避 免 过 多 的 环 仍然 
是 一 个 好 主意 ， 但 是 不 像 VE 中 那么 重要 。 

合并 元 素 

避免 环 的 方法 之 一 是 合并 节点 ， 人 工 消除 环 。 我 们 再 来 看 看 上 面 的 补充 材料 中 不 好 
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val el = Flip(0.5) 

Val e21: Element [Boolean] = Applyl(el, (b: Boo 
val e31: Element [Boolean] = Apply(e21, (b: Bo 
val e22: Element [Boolean] = Applyl(el, (b: Boo 
Val e32: Element [Boolean] = Apply(e22, (b: Bo 
val e4: Element [Boolean] = e31 === e32 





您 可 以 将 e21 和 e22 元 素 合并 为 元 素 e2，e31 和 e32 合并 为 元 素 e3， 如 图 10-10 所 
为 e21 和 e22 都 是 布尔 元 素 , e2 是 Element[(Boolean, Boolean)], 其 值 是 e21 和 e22 
值 的 配对 。 因 此 ，e2 的 可 能 值 数量 为 2 x 2 = 4; 





六 | 





修 。 











原始 端正 图 


/ 
/ 


e22 


e31 一 62 
ed 


10-10 ”合并 节点 以 避免 环 。 左 边 是 原始 的 端正 











e4 < a 





只 

















lean) => b) 
olean) => b) 
lean) => b) 
olean) => b) 





e3 与 此 类 似 。 


__ 821 (2 个 值 ) 和 e22 (两 个 值 ) 
一 合并 为 "超级 节点 "e2， 
后 者 有 2 x 2= 4 个 值 


。 一 3 的 情况 类 似 


”这样 就 消除 了 图 中 的 环 ， 
人 代价 是 变量 有 更 多 的 值 





只 














， 用 BP 会 生成 不 精确 的 结果 。 





右边 是 合并 了 节点 的 图 ， 








您 可 以 编写 如 下 程序 : 


val el = Flip(0.5) 
val e2: Element[ (Boolean, Boolean)] = Apply (el 
val e3: Element[ (Boolean, Boolean)] = 
Apply(e2, (bb: (Boolean, Boolean)) => (bb._1 
val e4: Element [Boolean] = 
Apply (e3, (bb: (Boolean, Boolean)) => bb._ 1 


没有 环 





创建 一 个 配对 元 素 ， 配 对 的 每 个 
成 分 等 于 el 的 值 ， 就 像 原 始 程 





序 中 的 e21 和 e22 
,; (b: Boolean) => (b, b)) 
六 Bb 2)} 好 一 + 
== bb._2) 





创建 一 个 配对 元 素 , 其 中 第 一 个 成 
分 等 于 e2 第 一 个 成 分 的 值 ， 第 二 
个 成 分 也 类 似 
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很 明显 ， 这 不 像 原来 的 程序 那么 自然 、 易 读 。 但 是 这 段 程序 的 主要 好 处 是 BP 可 以 
得 到 正确 的 答案 。 

分 解 有 许多 父 变 量 的 CPD 
忆 为 BP 在 端正 图 上 工作 ， 端 正 图 对 每 个 CPD 有 一 个 团 ， 和 VE 一 样 ， 有 许多 父 变 
量 的 CPD 对 BP 也 是 很 大 的 问题 。 特 别 是 ，BP 的 复杂 度 与 节点 最 大 父 变量 数 成 指数 关 
系 。 因 此 ， 您 应 该 尝试 用 10.3.2 小 节 中 描述 的 技术 分 解 CPD。 

使 用 衰减 CPD 

如 果 有 长 距离 效应 ，Loopy BP 的 误差 会 变 得 更 大 ， 在 这 种 情况 下 ， 节 点 的 值 通 过 
环 对 网 络 中 距离 很 远 的 另 一 个 节点 的 值 产生 很 大 影响 。 当 路 径 上 的 变量 之 间 是 确定 性 
的 ， 这 种 长 距离 效应 最 强 。 您 在 10.4.2 小 节 的 补充 材料 中 已 经 看 到 了 一 个 例子 ， 该 例 中 
的 中 介 变 量 等 于 第 一 个 变量 。 用 有 具有 某 种 随机 性 的 CPD 缓和 这 种 确定 性 ， 可 以 减 小 长 
距离 效应 。 

衰减 CPD 不 仅 能 够 得 到 更 好 的 BP， 还 能 得 到 更 精确 的 模型 。 例 如 ， 考 虑 第 5 章 
的 打印 机 模型 。 在 这 个 模型 中 我 们 说 明 ， 如 果 打 印 机 电源 按钮 开启 ， 墨 粉 水 平 高 ， 纸 张 
流动 顺畅 ， 则 打印 机 处 于 好 的 状态 。 这 是 一 种 确定 性 的 关系 。 但 是 情况 是 否 始终 如 此 ? 
实际 上 不 是 ， 其 他 电气 或 者 机 械 故 障 可 能 导致 打印 机 无 法 正常 工作 。 我 们 往往 用 确定 性 
的 关系 简化 模型 ， 但 是 增加 噪声 可 能 更 加 准确 。 而 且 ， 因 为 这 能 够 得 出 更 好 的 BP， 所 
以 通常 是 一 个 好 主意 。 在 下 一 章 中 ， 您 将 发 现 增 加 少数 噪声 也 能 改进 采样 算法 的 精度 。 
简化 网 络 
当 其 他 选择 都 无 效 时 ， 简 化 网 络 可 能 是 一 个 好 主意 ， 这 和 VE 的 情况 相同 。 简 化 网 
络 时 ， 您 应 该 有 两 个 目标 ， 最 重要 的 目标 是 ， 减 少 CPD 中 父 变 量 的 数量 ， 使 推理 更 快 。 
其 次 ， 尽 可 能 消除 长 距离 效应 一 一 例如 ， 通 过 删除 没有 交叉 边 的 环 进行 。 












































































































































































































































































































































































































































































































































10.5.3 BP 的 应 用 


模型 必须 有 明确 的 结构 ，VE 算法 才 适 用 。 您 已 经 在 HMM 和 PCFG 的 例子 中 看 到 
了 这 种 结构 。BP 无 此 限制 。 因 此 ，BP 的 应 用 很 广泛 。 每 当 您 有 一 个 包含 离散 变量 的 模 
型 ，BP 就 是 一 个 好 的 候选 技术 。 即 使 您 有 连续 变量 ， 只 要 愿意 将 它们 限制 在 一 组 特定 
的 可 能 值 ， 也 可 以 使 用 BP。 下 面 是 BP 的 一 些 常 见 应 用 。 
加 ”图 像 分 析 一 一 在 第 5 章 中 您 已 经 看 到 ， 可 以 使 用 马尔 科 夫 网 络 建立 二 维 像素 数 
组 的 模型 。 图 10-5 展示 了 4x4 图 像 的 马尔 科 夫 网 络 示例 。 在 那 一 节 中 我 曾经 说 
过 ， 这 类 网 络 对 VE 来 说 很 困难 ， 因 为 推理 的 代价 与 图 像 的 大 小 成 指数 关系 。 
相反 ，BP 很 适合 于 这 类 模型 。 推 理 的 代价 与 图 像 的 大 小 仅 成 线性 关系 。 
国医 学 诊断 一 一 在 典型 的 医学 诊断 间 题 中 ， 患 者 报告 一 组 症状 ， 医 生 需 要 找 出 这 
些 症状 的 根源 。 图 10-11 展示 了 一 个 用 于 医学 诊断 的 贝 叶 斯 网 络 示例 。 患 者 有 
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10.6 


10.7 


第 
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一 组 可 能 的 疾病 并 报告 了 一 组 症状 。 每 种 症状 可 能 是 多 种 疾病 造成 的 。 这 些 贝 





叶 斯 网 络 通常 有 很 多 环 。 一 
得 很 大 ，VE 不 适合 于 这 种 情况 。BP 已 经 成 功 地 / 



































役 来 说 ， 随 着 疾病 和 症状 数量 的 增长 ， 图 中 的 团 变 
j 在 这 类 网 络 上 。 




















图 10-11 医疗 诊断 贝 叶 斯 网 络 











四 建筑、 车辆 或 者 设备 健康 监控 一 一 复杂 系统 健康 状况 的 监控 是 概率 推理 的 重要 


应 用 。 例 如 ， 假 定 您 有 一 个 数据 中 心 ， 和 希望 监控 各 个 组 件 的 温度 和 电源 使 用 情 
件 温 度 和 电源 使 用 情况 的 变量 。 附 近 组 件 的 慢 度 也 是 





况 。 您 可 能 有 表示 每 个 组 







































































相关 的 ， 因 为 热量 可 能 在 这 些 组 件 之 间 传 递 。 相 互 连 接 组 件 的 电源 使 用 情况 变 











量 也 是 相关 的 。 此 外 ， 组 
多 环 概率 模型 。 在 这 








小 结 















































件 的 电源 使 用 影响 其 温度 。 这 些 因素 创建 了 一 个 大 的 


个 例子 中 ， 温 度 和 电源 使 用 是 连续 变量 ， 必 须 离 散 化 为 一 
组 值 。 不 过 ，BP 在 这 类 应 用 中 很 有 效 。 









































因子 是 组 织 概率 推 















































合 分 布 。 

















里 期 间 计 算 的 数据 结构 。 
妹子 有 一 组 变量 、 与 每 个 变量 值 组 合 对 应 的 行 和 对 应 每 行 的 一 个 数值 。 
妹子 支持 乘积 和 加 总 运算 ， 这 些 运算 通过 对 应 条 目 相 乘 和 加 总 定义 。 
概率 模型 查询 的 答案 可 以 定义 为 因子 的 乘积 之 和 表达 式 。 
变量 消除 法 是 一 种 精确 算法 ， 智 能 地 操纵 乘积 之 和 表达 式 ， 而 不 创建 完整 的 联 

















与 诱导 图 中 最 大 团 的 顶点 数量 成 指数 关系 。 
四 置信 传播 算法 使 用 因子 运算 传递 消息 。 在 三 角 化 网 络 中 ， 它 是 














在 有 环 网 络 中 ， 这 是 一 种 实用 的 近似 算法 ， 但 是 不 能 提供 任何 保证 。 
的 长 距离 效应 较 小 的 情况 下 更 为 精确 。 





国 ”多 环 置信 传播 在 网 络 中 的 环 


练习 


本 章 的 前 5 个 练习 基于 图 




















量变 量 消除 法 的 复杂 度 取 雇 于 变量 消除 顺序 ， 对 于 给 定 的 变量 消除 顺序 ， 复 杂 度 


















































10-12 所 示 的 贝 叶 斯 网 络 ， 描 述 了 婴儿 生命 

















种 精确 算法 。 














期 的 一 部 分 。 图 
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中 展示 了 4 个 变量 的 CPD。 在 www.manning.com/books/practical-probabilistic-programming 
可 以 找到 部 分 练习 的 答案 。 

1. 将 每 个 CPD 写成 一 个 因子 。 

2. 运用 链 式 法 则 ， 编 号 所 有 变量 联合 概率 分 布 的 表达 式 。 将 所 有 因子 相 乘 计算 联 




















合 概率 。 

3. 用 全 概率 公式 编写 P(Cry) 的 表达 式 。 加 总 联合 分 布 中 的 Hungry、Eat 和 Tired， 
计算 P(Cry)。 

4. 编写 查询 P(Eat | Cry = True) 的 表达 式 。 从 联合 分 布 入 手 ， 按 照 如 下 步骤 计算 查 
询 的 答案 : 


a) 将 Cry 不 为 True 的 行 设置 为 0。 
b) 加 总 变量 Hungry 和 Tired。 
c) 规格 化 结果 。 


False True 
3/4 1/4 









Eat 
None | A little [A lot 


Hungry 
























False 2 1/3 0 
True 1/6 V3 1/2 
Eat Tired 
Cw > False | Tme 
None 3/4 1/4 
Alittle 1/2 1/2 
Alot 1/4 3/4 








图 10-12 婴儿 生命 期 贝 叶 斯 网 络 


























5. 使 用 变量 消除 法 ， 考 虑 计算 P(Cry) 的 过 程 。 

a) 绘制 贝 叶 斯 网 络 的 端正 图 。 

b) 按照 变量 消除 顺序 Eat、Hungry、Tired 绘制 诱导 图 。 最 大 团 的 顶点 数量 是 多 少 ? 

c) 按照 变量 消除 顺序 Hungry、Tired、 Eat 绘制 诱导 图 。 最 大 团 的 顶点 数量 是 多 少 ? 

6. 对 于 图 10-5 中 的 4x4 像素 网 络 ， 尝 试 不 同 的 变量 消除 顺序 。 说 服 自己 相信 无 法 
避免 至 少 为 4 的 团 项 点 数量 。 

7. 用 Figaro 表现 HMM， 例 如 图 10-6 中 的 模型 。 编 写 一 个 函数 ， 以 观测 序列 为 
参数 ， 在 这 个 观测 序列 上 展开 HMM,， 使 用 变量 消除 法 计算 最 终 隐 仿 状态 的 概率 分 布 。 
计量 不 同 长 度 的 观测 序列 的 计算 时 间 。 以 观测 序列 长 度 的 函数 表示 ， 计 算 时 间 遵 循 何 
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种 趋势 ? 

8. 在 Figaro 中 创建 图 10-5 中 的 像素 网 络 的 通用 表现 形式 ， 每 边 的 像素 数量 可 变 。 
对 于 不 同 像素 数量 ， 进 行 如 下 试验 。 

a) 随机 观察 1/3 像素， 不 包括 左上 角 。 

b) 计量 变量 消除 法 计算 左上 角 有 像素 概率 所 花费 的 时 间 。 您 将 发 现 ， 在 超出 一 个 
相对 小 的 像素 数 之 后 ， 变 量 消除 法 将 花费 很 长 时 间 ， 因 此 停止 该 过 程 。 变 量 消除 法 的 计 
算 时 间 遵 循 什么 趋势 ? 

c) 计量 置信 传播 计算 左上 角 有 像素 概率 所 花费 的 时 间 。 置 信 传 播 遵循 什么 趋势 ? 

d) 如 果 变 量 消除 法 和 置信 传播 都 终止 ， 计 量 两 种 算法 产生 的 答案 之 间 的 差异 。 因 
为 变量 消除 法 得 出 精确 的 答案 ， 这 一 数量 就 是 置信 传播 的 误差 。 

9. 考虑 图 10-11 中 的 医学 诊断 网 络 ， 将 疾病 放 在 一 行 ， 症 状 放 在 男 一 行 。 

a) 编写 一 个 函数 生成 这 类 随机 网 络 。 该 函数 应 该 有 3 个 参数 : 疾病 数量 、 症 状 数 
量 ， 任 意 给 定 的 疾病 和 症状 之 间 有 一 条 边 的 概率 。 

b) 和 练习 8 一 样 进行 试验 ， 观 察 参数 值 变化 时 变量 消除 法 和 置信 传播 法 的 表现 。 
变量 消除 法 的 计算 时 间 有 何 趋势 ? 置信 传播 的 计算 时 间 有 何 趋势 ? 当 两 个 算法 终止 时 ， 
置信 传播 的 误差 如 何 ? 
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本 章 介 绍 如 下 内 容 : 

国 ”抽样 算法 的 基本 原理 

加 ”重要 性 抽样 算法 

图 ”马尔 科 夫 链 蒙特 卡 洛 ( MCMC ) 算法 
加 ”MCMC 的 Metropolis-Hastings 变种 























本 章 继续 前 一 章 的 主题 ， 介 绍 用 于 概率 编程 推理 的 一 些 主 要 算法 。 第 10 章 的 焦点 
是 变量 消除 法 和 置信 传播 等 因子 分 解 算法 ， 本 章 则 研究 抽样 算法 ， 这 类 算法 生成 从 程序 
定义 的 概率 分 布 中 抽取 的 变量 可 能 状态 以 回答 查询 。 本 章 要 特别 介绍 两 种 实用 的 算法 : 
重要 性 抽样 和 马尔 科 夫 链 蒙 特 卡 洛 算法 (MCMC)。 
完成 本 章 的 学 习 之 后 ， 您 将 对 概率 编程 系统 (如 Figaro) 使 用 的 推理 算法 有 很 好 的 
里 解 。 这 种 理解 将 帮助 您 设计 模型 、 控 制 推理 ， 以 得 到 更 好 的 结果 。 特 别 是 ，MCMC 
需要 额外 的 努力 才能 有 很 好 的 表现 ， 本 章 介绍 了 这 方面 的 几 种 技术 。 第 12 章 在 这 些 知 
识 基 础 上 ， 说 明 如 何 使 用 类 似 的 算法 回答 概率 程序 上 的 其 他 查询 。 
本 章 和 前 面 介 绍 因子 分 解 算法 的 章节 大 致 上 是 相互 独立 的 。 尽 管 我 将 与 因子 分 解 算 
法 进行 一 些 对 比 ， 但 是 理解 抽样 算法 并 不 要 求 理解 因子 分 解 算 法 的 工作 原理 。 而 且 ， 抽 
象 算法 较 少 使 用 第 9 章 中 介绍 的 推理 原则 。 当 然 , 您 应 该 对 编写 Figaro 程序 有 一 定 的 理 
解 。 最 后 ，MCMC 算法 在 第 8 章 开 始 时 介绍 的 马尔 科 夫 链 基础 上 构建 ， 所 以 如 果 想 要 
理解 MCMC， 应 该 复习 那些 材料 。 
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11.1 抽样 的 原理 


抽样 算法 是 概率 推理 中 因子 分 解 算法 的 一 种 蔡 代 算法 。 抽 样 的 基本 原理 很 简单 ; 使 
用 可 能 世界 的 一 组 示例 (样本 )， 而 不 是 以 一 组 数值 的 形式 表现 可 能 世界 上 的 概率 分 布 。 
抽样 的 基本 思路 如 图 11-1 所 示 。 在 这 个 例子 中 , 一 个 变量 的 可 能 取 值 为 small 4、)、 
medium《〈 中 ) 和 1large《〈 大 )。 可 能 世界 由 这 个 变量 的 可 能 值 组 成 ， 第 一 行 显示 可 能 世界 
上 的 真正 概率 分 布 。 这 种 真实 分 布 可 能 是 查询 的 答案 ,但 通常 是 未 知 的 。 您 并 不 直接 计 
算 分 布 ， 而 是 生成 一 组 样本 。 每 个 样本 是 一 个 可 能 世界 ， 生 成 特定 可 能 世界 的 概率 应 该 
等 于 该 可 能 世界 的 概率 。 图 中 ， 我 们 生成 了 : 

加 ”该 变量 设置 为 small 的 2 个 样本 。 

加 ”该 变量 设置 为 medium 的 5 个 样本 。 

图 ”该 变量 设置 为 large 的 3 个 样本 。 

然后 ， 您 可 以 通过 等 于 该 可 能 世界 的 样本 所 占 比例 估算 可 能 世界 的 概率 : 

四 您 希望 计算 一 个 真实 分 布 。 

国生 成 来 自 这 个 真实 分 布 的 样本 。 

加 ”使 用 这 些 样本 估算 分 布 。 











































































































































































































真实 概率 0.31 
样本 
估算 的 概率 03 


图 11-1 抽样 原理 。 您 希望 计算 一 个 未 知 的 真实 概率 分 布 。 为 了 估算 这 个 分 布 ， 生 成 一 组 样本 。 生 成 特 
定 值 的 概率 应 该 等 于 该 值 的 真实 概率 。 在 得 到 一 组 样本 之 后 ， 可 以 通过 观察 有 多 少 样本 取得 某 个 值 ， 估 
算 该 值 的 概率 










































































前 面 的 例子 中 有 一 个 仅 有 3 种 可 能 取 值 的 离散 变量 。 抽样 也 可 用 于 具有 无 穷 多 个 可 
能 取 值 的 变量 ， 如 连续 变量 。 实 际 上 ， 抽 样 可 能 在 这 类 变量 上 最 有 用 。 您 可 能 还 记得 ， 
连续 变量 使 用 概率 密度 函数 。 图 11-2 展示 了 两 个 0 和 1 之 间 的 连续 变量 ; 每 个 可 能 世界 
包含 每 个 变量 的 一 个 值 。 可 能 世界 的 空间 被 分 为 不 同 概率 密度 的 区 域 。 区 域 的 阴影 颜色 
越 深 ,密度 越 大 。 这 个 区 域 被 一 组 样本 覆盖 。 样 本 在 区 域 中 的 密度 粗略 地 反映 了 该 区 域 
的 概率 密度 。 某 个 区 域 中 样本 的 数量 是 该 区 域 概率 的 一 个 估算 。 
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1 一 可 能 世界 


-一 一 一 最 高 密度 的 区 域 








0 1 党 
图 11-2 用 一 组 样本 覆盖 可 能 世界 空间 。 深 色 阴 影 区 域 是 概率 密度 加 高 的 区 域 。 高 密度 区 域 的 样本 密度 
高 于 低 密度 区 域 
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抽样 算法 有 两 个 主要 的 类 别 。 第 一 类 算法 较为 简单 ， 直 接 运 行 概率 程序 从 预想 的 分 
布 中 生成 一 个 样本 。 这 类 算法 称 作 前 向 抽样 ， 下 面 将 做 介绍 。 许 多 概率 编程 系统 〈 包 括 
Figaro) 中 实现 的 一 种 实用 前 向 抽样 算法 是 重要 性 抽样 ， 我 们 将 在 11.2 小 节 中 介绍 。 

第 二 类 抽样 算法 称 作 马 尔 科 夫 链 蒙特 卡 洛 ( MCMC ) 算法 。MCMC 的 主要 思路 是 
不 直接 从 分 布 中 抽样 ， 而 是 定义 一 个 最 终 收敛 到 真实 分 布 的 抽样 过 程 。11.3 小 节 中 将 详 
细 解 释 这 一 过 程 。 
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11.1.1 前 向 抽样 


在 前 向 抽样 中 , 一 次 生成 概率 程序 中 的 一 个 变量 值 。 在 为 所 有 变量 生成 一 个 值 之 后 ， 
您 就 有 了 一 个 由 单个 样本 组 成 的 可 能 世界 。 每 当 生 成 一 个 变量 值 , 就 使 用 该 变量 的 定义 : 
使 用 其 函数 形式 和 数值 参数 依赖 于 其 父 变量 的 方式 。 因 此 ， 变 量 的 定义 决定 了 该 变量 上 
的 一 个 概率 分 布 。 您 根据 这 个 分 布 为 变量 选择 一 个 值 。 前 向 抽样 按照 拓扑 顺序 推进 : 在 
为 某 个 变量 生成 值 之 前 , 总 是 先生 成 该 变量 父 变量 的 值 , 所 以 您 总 是 明确 所 使 用 的 分 布 。 

下 面 是 前 向 抽样 的 伪 代 码 。 这 些 代码 生成 一 个 由 所 有 变量 值 组 成 的 样本 。 

1. 假设 O 是 变量 的 拓扑 顺序 。 

2. 对 于 O 中 的 每 个 变量 V: 

a) 设 Par 为 V 的 父 变量 。 

b) 设 xpu 是 之 前 为 Par 生成 的 值 。 

c) 从 P(V |Par = xp 中 提取 xv。 

3. 返回 x《〈 表 示 每 个 变量 V 值 xv 的 一 个 向 量 )。 

前 向 抽样 过 程 如 图 11-3 所 示 。 待 抽样 的 概率 程序 显示 在 左 侧 ,中 部 是 一 棵 展示 程序 
中 变量 所 有 可 能 值 生 成 过 程 的 树 。 粗 箭头 表示 正在 运行 的 特定 抽样 。 首 先 ， 为 变量 
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rembrandtl (表示 两 幅 


生成 true 值 。 接 下 来 ,为 rembrandt2 生成 值 。 
个 Flip 定义 ， 所 以 过 程 类 似 。 在 这 一 次 运行 中 ，rembrandt2 生成 的 值 是 false。 








画 中 的 第 























幅 是 不 是 伦 勃 朗 的 作品 ) 生成 值 。 
为 Flip(0.4), 生成 true 值 的 概率 为 0.4, false 值 的 概率 为 0.6, 在 


因为 该 变量 的 定义 
所 示 的 采样 路 径 中 ， 











图 ! 






































成 代表 两 幅 画作 是 否 同 












































画作 都 不 是 伦 勃 朗 的 作品 ， 则 它们 都 出 上 
rembrandtl 和 rembrandt2， 这 两 个 变量 的 














画家 作品 的 samePainter 值 














这 个 变量 不 依赖 于 任 


《 








可 其 他 变量 ， 也 由 一 
最 后 ， 生 
只 考虑 两 位 画家 ， 所 以 如 果 两 幅 













































































其 他 画家 之 


由 此 时 已 



































经 生成 。 





手 ) 变量 samePainter 依赖 于 
对 为 rembrandtl 为 true， 

















rembrandt2 为 false， 所 以 samePainter 自动 为 false。 


程序 
rembrandt] = Flip(0.4) 


rembrandt2 = Flip(0.2) 
samePainter = x===Yy 


Flip(0.2) 


true 


true 


false 


Flip(0.4) 








图 11-3 ”前 向 抽样 过 程 。 轿 





























值 的 过 程 。 右 侧 
在 

















前 向 抽样 中 ， 














第 二 个 和 第 四 


如 ，rembrandtl 为 false、 














是 从 这 次 运行 得 到 


运行 


运 休 
表 11-1 展示 了 这 个 程序 的 4 个 样 





上 述 过 程 许 多 次 ， 





Flip(0.2) 


false 


中 的 树 展 示 了 为 给 定 程序 生成 值 的 所 有 可 能 途 和 
的 可 能 世界 ( 在 树 中 ，rembrandtl 和 rembrandt2 缩写 为 rl 和 7r2 ) 


每 次 都 生成 不 同 的 可 能 








本 。 注 意 ， 














生成 的 可 能 世界 





rembrandtl 


true 





rembrandt2 


false 





| samePainter 


| false 





true 


同一 个 样本 可 能 生成 多 次 ; 
个 样本 相同 。 可 能 世界 的 概率 可 以 估算 为 等 于 该 可 能 世界 的 样本 比例 。 例 
rembrandt2 为 false 日 samePainter 为 true 这 一 可 能 世界 的 


， 以 及 通过 树 生成 某 个 特定 




















F 界 (或 者 样本 )。 
在 这 个 例子 






































概率 估算 为 12， 因 为 4 个 样本 中 有 2 个 等 于 该 可 能 世界 。 
表 11-1 图 11-3 的 程序 生成 的 4 个 样本 
元 素 第 1 个 样本 第 2 个 样本 第 3 个 样本 第 4 个 样本 
Tembrandtl true false true false 
rembrandt2 false false true false 
samePainter false true true true 
估算 的 样本 分 布 也 可 以 用 于 回答 查询 。 例如， 如 果 您 想 知道 两 幅 画 作 是 同一 作家 作 





品 的 概率 ， 该 怎么 做 ? 您 可 以 使 用 4 个 样本 中 有 3 个 的 samePainter 值 为 true 这 一 
查询 的 答案 为 3/4。 





估算 出 
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为 什么 使 用 样本 ? 
强调 一 组 样本 只 是 可 能 世界 上 概率 分 布 的 一 种 可 能 表现 形式 ， 是 很 重要 的 。 前 向 抽 



































样 是 一 个 随机 过 程 ， 所 以 它 每 次 都 可 能 生成 不 同 的 结果 。 从 前 向 抽样 的 不 同 次 运行 中 得 





























观察 上 述 的 


为 false 的 概率 是 0.6 x 0.8 = 0.48。 在 这 个 例子 中 ，Flip(0.4) === Flip(0.2) 始 终 为 tue。 所 


以 ， 可 能 世 
殊 的 例子 中 





那么 ， 
和 加 法 进行 











样本 数量 不 大 的 情况 下 。 














到 的 估算 分 布 通常 也 不 同 ,而且 , 它们 通常 不 会 正好 等 于 概率 程序 定义 的 分 布 。 实际 上 ， 











例子 ，Flip(0.4) 为 false 的 概率 是 0.6，Flip(0.2) 为 false 的 概率 为 0.8。 两 者 皆 





界 等 于 表 11-1 中 第 2 和 第 4 个 样本 的 正确 概率 是 0.48 而 不 是 0.5。 在 这 个 特 
， 佑 算 值 很 接近 ,但 是 通常 不 能 保证 答案 能 够 如 此 接近 ， 特 别 是 在 您 生成 的 












































为 什么 抽样 是 个 好 主意 呢 ? 这 个 例子 只 有 3 个 变量 ,您 可 以 使 用 简单 的 乘法 
所 有 必要 的 计算 。 但 是 ， 许 多 程序 有 很 多 变量 ， 这 些 变量 可 能 采用 有 大 量 其 



























































至 无 穷 多 个 可 能 值 的 丰富 数据 类 型 。 在 那些 程序 中 ， 可 能 无 法 创建 所 有 必要 的 因子 以 运 















































行 分 解 推理 计算 法 ， 更 不 要 说 执行 所 有 必要 的 乘法 和 加 法 了 。 另 一 方面 ， 使 用 抽样 ， 您 





只 需要 考虑 
下 面 是 


val x = App 
val y = Fl1i 














相对 少 的 可 能 性 ， 获 得 所 需 概率 分 布 的 一 个 估算 值 。 
体现 上 述 要 点 的 一 个 示例 程序 : 


ly (Normal (0.4，0.3)， (d: Double) => d.max(0) .min(1)) 
p(x) 
































在 此 , x 代表 一 个 0 和 1 之 间 的 正 态 分 布 变 量 。 变 量 y 定义 为 复合 Fip， 与 Chain(x, (d: 






































Double) => Flip(d) 等 价 。 图 11-3 展示 了 完整 的 可 能 抽样 运行 树 。 但 是 ， 在 实践 中 ， 这 棵 完 
整 的 树 从 未 创建 一 一 只 生成 对 应 于 各 个 值 的 子 树 。 在 这 个 例子 中 ， 完 整 的 树 是 无 限 的 ， 所 
以 永远 无 法 计算 精确 的 概率 分 布 。 抽 样 仅 计算 树 中 有 限 的 一 部 分 ， 并 用 结果 估算 分 布 。 





这 作为 参数 
4 个 特定 的 


图 11-4 展示 了 抽样 这 一 程序 生成 的 树 。 在 每 次 运行 中 ， 为 Apply 生成 一 个 实数 值 ， 



















































































传递 给 Chain， 每 次 都 生成 不 同 的 Flip 元 素 。 如 果 生 成 4 个 样本 ， 只 会 创建 
Flip 元 素 ， 其 余 的 无 穷 多 个 元 素 甚至 从 未 存在 过 。 


Apply(Normal(0.4, 0.3), (d: Double) => d.max(0).min(1)) 


























生成 的 样本 : ”0.1129 0.8482 0.6437 0 


| | | | 


结果 元 素 : Flip(0.1129) Flip(0.8482) Flip(0.6437) Flip(0) 


生成 的 样本 : false true false true 








图 11-4 ”样本 生成 的 部 分 树 














如 果 提 
点 ， 您 可 能 

















样 的 分 布 只 是 真实 分 布 的 一 个 估算 , 对 抽样 的 结果 能 说 什么 ?这 里 有 两 个 要 
直观 地 感觉 到 它们 。 
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国平 均 来 说 ， 样 本 分 布 将 等 于 真实 分 布 。 任 何 特定 的 样本 分 布 与 真实 分 布 存在 差 
异 ， 但 是 如 果 取 所 有 可 能 分 布 的 平均 值 ， 将 等 于 真实 分 布 。 从 直觉 上 说 ， 这 是 
忆 为 每 个 样本 都 是 从 真实 分 布 中 提取 的 。 这 一 属性 用 技术 术语 描述 为 : 样本 过 
程 无 偏 性 。 
国 ”使 用 的 样本 越 多 ， 样 本 分 布 越 接近 于 真实 分 布 。 换 名 话说， 如 果 您 使 用 样本 回 
答 查 询 ， 答 案 的 预期 误差 随 着 样本 的 增加 而 减 小 。 这 仅 是 预期 误差 ;没有 任何 

保证 。 如 果 您 的 运气 不 好 ， 更 多 的 样本 可 能 造成 误差 的 增加 ， 但 是 平均 起 来 ， 

误差 将 会 减 小 。 这 种 属性 的 术语 说 法 是 : 抽样 过 程 的 方差 随 着 样本 增多 而 减 小 。 
图 11-5 展示 了 抽样 算法 的 典型 表现 。 该 图 显示 了 样本 数量 随时 间 推 移 而 增 大 时 , 抽 















































































































































































































































样 算法 估算 的 查询 概率 。 可 以 看 到 ， 一 开始 估算 值 快 速 地 向 真实 概率 移动 ， 在 长 时 间 运 
行 之 后 收敛 于 真实 概率 ， 但 是 有 时 估算 会 出 现 发 散 ， 收 敛 的 速度 也 可 能 很 慢 。 

































































真实 概率 通过 抽样 估算 的 概率 
相 

1 
说 
到 

0 

样本 
图 11-5 ”抽样 过 程 在 一 段 时 间 内 的 典型 表现 。 抽 样 估算 的 概率 倾向 于 收敛 到 真实 概率 ， 
但 是 有 时 候 也 会 发 散 











这 两 个 属性 是 抽样 算法 成 为 实用 的 概率 推理 近似 算法 的 关键 原因 。 根 据 这 些 属性 ， 
如 果 您 使 用 一 个 抽样 过 程 ， 将 得 到 以 真实 分 布 为 中 心 的 近似 分 布 ， 可 以 预期 使 用 的 样 
本 越 多 ， 近 似 分 布 就 越 接近 于 真实 分 布 。 如 果 使 用 足够 多 的 样本 ,与 真实 预期 的 差距 可 
以 达到 您 的 预期 。 
警告 : 在 这 个 问题 上 没有 什么 致胜 法 宝 。 推理 是 一 个 困难 的 问题 , 抽样 也 不 总 是 好 的 解决 方案 . 

有 了 时候， 您 不 得 不 使 用 很 大 的 样本 ， 以 得 到 和 真实 分 布 足够 接近 的 结果 。 

在 生成 一 组 样本 之 后 ， 很 容易 用 它们 回答 查询 。 例 如 ， 为 了 估算 变量 取得 特定 值 的 
概率 ， 计 算 样 本 中 变量 取 该 值 的 比例 。 要 估算 变量 的 最 可 能 值 ， 可 以 观察 样本 中 最 常见 
的 值 。 所 以 ， 可 以 总 结 抽样 算法 如 此 吸引 人 的 原因 : 如 果 使 用 足够 的 样本 ,可 以 接近 于 
真实 分 布 ， 而 且 很 容易 使 用 样本 回答 查询 。 
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11.1.2 ”拒绝 抽样 


今 为 止 , 您 已 经 看 到 根据 模型 中 的 元 素 定义 生成 元 素 值 的 前 向 抽样 过 程 。 目 前 为 
正定 义 的 过 程 没有 考 直 以 条 件 下 者 约束 形式 出 现 的 证 据 。 如 果 没 有 任何 证 据 ， 程 序 定义 
的 是 可 能 世界 上 的 先 验 分 布 。 所 以 ， 前 向 抽样 过 程 从 先 验 概率 分 布 中 生成 样本 。 

尽管 这 对 理解 过 程 很 有 帮助 ， ee ns dela 趣 ， 这 
种 概率 是 根据 证 据 进 行 调节 之 后 得 到 的 。 您 需要 一 种 从 后 验 分 布 中 生成 样本 的 手段 。 
实现 上 述 目 标的 一 种 简单 过 程 处 作 拒绝 抽样 拒绝 抽样 的 原理 很 简单 ， 像 前 面 一 样 
使 用 前 向 抽样 , 但 是 拒绝 任何 与 证 据 不 符 的 样本 。 只 有 和 证 据 保持 一 致 的 样本 得 以 维持 。 
注意 : 这 里 介绍 的 算法 是 一 般 数学 概念 的 特例 。 本 节 介绍 的 拒绝 抽样 算法 只 适用 于 有 条 件 
没有 软 约束 的 概率 程序 。 
拒绝 抽样 是 第 4 章 中 您 已 经 看 到 的 根据 证 据 进 行 调节 的 基本 方法 的 结果 。 图 11-6 应 
该 能 够 让 您 回想 起 这 种 方法 。 您 从 可 能 世界 上 的 先 验 概率 入 手 ， 在 观察 到 证 据 时 ,“ 删 去 ” 
与 证 据 不 相符 的 可 能 世界 ， 为 其 指定 概率 0。 然 后 规格 化 所 得 的 概率 ， 得 到 后 验 分 布 。 
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1 看 到 证 据 之 前 的 概率 分 布 
2 证 据 编码 这 一 情 \ 
况 的 现时 知识 y 





先 验 概率 分 布 


\ 可 能 世界 
\ 1 履 品 
\ 2. 伦 勤 朗 、 人 物 画 、 深 色 9o (jw 


\ 3. 伦 勃 朗 、 人 物 画 、 鲜 艳 
| 4. 伦 勃 朗 、 风 景 画 0.09 ”0009 0.001 













证 据 


.大片 嫩 黄色 
“ 喝 醇 的 水 手 ” 
.在 2003 年 的 拍卖 中 售 出 











一 致 的 可 能 世界 


1. 履 品 


2- 伦 过 朗 一 大 物 档 一 深 色 
pa 3. 伦 勃 衣 、 人 物 画 、 鲜 艳 
生 伦 勃 阴 一 所 景 栈 


0.9/(0.9+0.009) 0.009/(0.9+0.009) 









3. 根 据 证 据 ， 我 们 删 去 4. 根 据 证 据 调 节 之 5. 我 们 规格 化 其 余 


不 一 致 的 可 能 世界 后 的 概率 分 布 可 能 世界 的 概率 ， 
使 其 总 和 为 1 





图 11-6 ” 重 现 图 4-4: 根据 证 据 调 节 的 过 程 
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的 程序 : 


1 zembranqt1 = Flip(0.4) 
1 rembrandt2 = Flip(0.2) 
1 samePainter = rembrandtl1 === rembrandt2 
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绝 抽样 使 用 相同 的 原理 ， 删 去 和 证 据 不 符 的 可 能 世界 。 这 通过 删除 与 证 据 不 符 的 
所 有 样本 来 实现 。 剩 余 样 本 代表 着 根据 证 据 调节 之 后 的 后 验 概率 。 然 后 ， 可 以 用 这 些 科 
本 回答 任何 查询 。 

































































我 们 来 考虑 表 11-1 中 示例 使 用 的 同一 个 程序 , 但 是 这 次 增加 一 些 证 据 。 下 面 是 修改 

















rembrandt2 .observe (false) 
























































表 11-2 的 内 容 和 表 11-1 一 样 ， 但 是 删除 了 与 观测 值 不 符 的 样本 。 剩 下 的 样本 代表 
了 后 验 概率 分 布 。 

表 11-2 Flip(0.2) 元 素 观测 值 为 true 的 拒绝 抽样 。 任 何 与 此 观测 值 不 符 的 样本 都 被 拒绝 
元 素 第 1 个 样本 第 2 个 样本 第 3 个 样本 第 4 个 样本 
rembrandtl true false true false 
rembrandt2 false false true false 
samePainter false true true true 

表 11-2 说 明了 拒绝 抽样 的 基本 概念 ， 但 是 真正 的 拒绝 抽样 算法 有 两 处 优化 。 首 先 ， 


保存 最 终 将 被 











E 绝 的 样本 不 能 高 效 地 利用 内 存 。 特 别 是 如 果 大 部 分 样本 被 拒绝 ， 可 能 时 

































































致 您 在 得 到 后 验 分 布 中 的 一 组 样本 之 前 就 耗 尽 内 存 。 因 此 ， 与 证 据 不 符 的 样本 在 创建 之 


后 立 多 



































I 被 抛弃 ， 不 予 保存 。 
其 次 ， 在 检查 样本 与 证 据 是 否 一 致 之 前 ， 没 有 必要 生成 整个 样本 。 可 以 在 生成 的 元 


























素 值 与 元 素 相关 证 据 
rembrandt2 的 值 tue， 您 就 知道 该 样本 将 被 拒绝 ， 因 此 没有 必要 生成 samePainter。 与 等 
到 整个 样本 生成 之 后 再 拒绝 相 比 ， 这 可 以 大 大 地 节约 时 间 。 

















不 符 时 立刻 抛弃 样本 。 在 表 11-2 中 的 第 3 个 样本 ， 一 旦 生成 




































































下 面 是 拒绝 抽样 














的 伪 代 码 。 这 些 代 码 多 次 尝试 








样 ， 直 到 生成 与 证 据 一 致 的 样本 。 























1. 假设 O 是 变量 的 拓扑 顺序 。 








2. 对 于 顺序 O : 
a) 假设 Par 是 V 





b) 假设 xpa 是 之 前 生成 的 Par 值 。 


的 每 个 变量 V: 
的 父 变量 。 



































c) 从 PCV|Par = xpaD) 中 提取 xv。 





























d) 如 果 xv 与 关于 
3. 返回 x。 











V 的 证 据 不 符 ， 重 复 步 又 2。( 该 样本 立即 被 拒绝 ) 











下 面 是 拒绝 抽样 的 必 知 事项 。 






































量 ”拒绝 抽样 的 好 处 是 从 根据 证 据 调 节 的 后 验 概率 分 布 中 提取 的 样本 不 会 被 拒绝 。 
而 且 ， 使 用 的 样本 越 多 ， 可 以 预期 样本 分 布 越 接近 于 真实 分 布 。 这 和 前 向 抽样 



























































11.2 重要 性 抽样 299 




















相同 ， 但 是 现在 考虑 了 证 据 。 
国 ”拒绝 抽样 的 缺点 是 大 部 分 样本 可 能 被 拒绝 。 这 样 ， 大 部 分 工作 都 浪费 了 ， 生 成 
合适 的 样本 集 需 要 花费 很 长 的 时 间 。 一 般 来 说 ， 样 本 被 接受 的 概率 等 于 证 据 的 

概率 。 所 以 ， 如 果 证 据 的 概率 很 低 ， 大 部 分 样本 将 被 拒绝 。 

可 以 估算 证 据 的 概率 吗 ? 假定 您 投掷 一 枚 公平 硬币 10 次 。 可 能 的 结果 数量 为 2"。 
所 以 ，10 次 掷 币 的 任何 一 个 观测 值 的 概率 为 1/(2"”)。 如 果 投 撕 20 次 ， 概 率 则 为 1/(2”)。 
这 意味 着 ， 如 果 在 这 个 例子 中 使 用 拒绝 抽样 ， 那 么 只 有 1/(2”) 的 样本 被 接受 一 一 这 是 一 
个 很 小 的 数量 。 一 般 来 说 ， 证 据 的 概率 随 着 拥有 数据 的 变量 数量 增加 而 呈 指 数 式 下 降 。 
也 就 是 说 , 使 用 拒绝 抽样 生成 一 个 好 的 样本 集 所 需 的 工作 量 随 着 证 据 变 量 的 增加 而 呈 指 
数 式 增加 。 您 可 能 认为 拒绝 抽样 快速 拒绝 样本 的 能 力 可 以 缓解 这 一 问题 。 遗 憾 的 是 ， 这 
一 能 力 产生 的 时 间 节 约 仅 与 证 据 变 量 呈 线性 关系 ， 无 法 弥补 指数 式 上 升 的 代价 。 

忆 此 ， 尽 管 对 于 阐述 一 般 原 理 很 有 益 ， 但 是 拒绝 抽样 通常 不 被 视 为 实用 的 算法 。 此 
外 ， 拒 绝 抽 样 仅 能 处 理 Figaro 的 条 件 ， 而 无 法 处 理 更 通用 的 约束 。 在 下 面 两 个 小 节 中 ， 
您 将 看 到 两 种 实用 的 算法 : 重要 性 抽样 和 马尔 科 夫 链 蒙 特 卡 洛 算法 。 重 要 性 抽样 和 拒绝 
抽样 类 似 ， 但 是 使 用 更 巧妙 的 方法 考虑 证 据 ， 而 马尔 科 夫 链 蒙 特 卡 洛 算法 使 用 完全 不 同 
的 抽样 方法 。 
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11.2 重要 性 抽样 


重要 性 抽样 类 似 于 拒绝 抽样 。 实 际 上 ， 当 重要 性 抽样 遇 到 不 能 满足 的 条 件 时 ， 它 将 
和 拒绝 抽样 一 样 拒绝 该 样本 。 但 是 两 者 之 间 存 在 两 个 重大 的 差别 。 首先 , 除了 条 件 之 外 ， 
Figaro 提供 了 约束 ， 约 束 不 仅 有 真 或 假 两 种 取 值 ， 而 是 为 每 个 状态 指定 一 个 实数 。 拒 绝 
抽样 无 法 处 理 这 种 约束 ， 因 为 样本 不 会 完全 与 证 据 不 一 致 ， 只 是 概率 较 低 而 已 。 重 要 性 
抽样 可 以 处 理 不 会 造成 拒绝 的 约束 。 其 次 ， 在 合适 的 情况 下 ， 重 要 性 抽样 可 以 将 条 件 转 
换 为 其 他 变量 上 的 约束 ， 避 免 因 为 条 件 而 拒绝 样本 。 


注意 : 重要 性 抽样 是 比 我 这 里 所 描述 的 更 加 通用 的 一 种 算法 框架 。 我 将 焦点 放 在 Figaro 使 用 的 
重要 性 抽样 变种 上 。 


在 描述 重要 性 抽样 之 前 ， 我 将 详细 地 介绍 Figaro 条 件 和 约束 的 含义 。 

量 。 硬 条 件 是 从 元 素 值 到 布尔 值 的 函数 。 它 规定 了 某 个 值 拥有 正 概率 所 必须 满足 的 

属性 。 准 确 地 说 ， 任 何 元 素 值 不 满足 该 条 件 的 可 能 世界 概率 将 为 0。 因 此 ， 可 
以 这 样 看 待 条件 : 如果 元 素 不 满足 条 件 ， 将 可 能 世界 的 概率 乘 以 0， 如 果 满 足 
条 件 则 乘 以 1。 

四 ” 软 约束 是 从 元 素 值 到 一 个 实数 的 函数 。 我 曾经 说 过 ， 约 束 可 以 解读 为 “其 他 条 
件 都 相同 ”的 陈述 。 例 如 ， 假 定 您 有 一 个 元 素 的 约束 ， 如 果 该 元 素 为 true 则 
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样 算法 



































回 0.5。 假 定 两 个 可 能 世界 的 差别 仅 是 这 个 元 素 的 值 ， 





























在 其 他 条 件 相 同 的 情况 下 ， 该 可 能 世界 中 这 个 元 素 为 true 的 概率 两 倍 于 false 














































































































300 第 11 章 于 
返回 1.0， 为 false 时 返 
的 概率 。 
还 有 一 
将 有 某 
所 以 要 将 它们 当成 概率 必须 进行 规格 化 。 
做 此 简介 之 后 ， 您 就 已 经 为 
11.2.1 重要 性 抽样 的 工作 方式 




















在 重要 性 抽样 的 主要 原理 
每 个 样本 都 不 是 完整 的 样本 ， 


























分 布 由 样本 的 权重 定义 。 我 将 在 接 下 来 解释 
























































， 与 前 








究 重 要 性 抽样 的 工作 原 到 





























更 为 精确 的 定义 ， 考 虑 具有 约束 C 的 元 素 下 。 忽 略 该 约束 ， 任 何 可 能 世界 
概率 pb。 假定 该 可 能 世界 中 的 元 素 值 为 e。 考 虑 约束 后 该 元 素 的 非 规格 化 概率 
是 pox CCe)。 我 称 之 为 非 规格 化 是 因为 当 您 这 样 解读 约束 时 ， 这 些 值 








的 总 和 通常 不 为 1， 












































， 每 个 样本 与 一 个 权重 关联 。 权 重 
遇 到 一 个 约束 时 ， 必 须 将 可 能 世界 的 概率 乘 以 约束 值 。 





束 值 的 乘积 。 





其 工作 原理 ， 然 后 说 明 重 要 性 


















































我 们 对 表 11-2 使 用 的 程序 做 如 下 修改 ， 观 察 上 述 过 程 : 








免 拒 绝 。 
加 权 样 本 
在 重要 性 抽样 ! 
现 。 最 终 ， 权 重 的 值 将 是 所 有 约 
val rembrandt1 = Flip(0.4) 
val rembrandt2 = Flip(0.2) 
val samePainter = rembrandtl1 === rembrandt2 


rembrandt2.addConstraint ((b: Bo 





在 这 个 程序 中 ， 您 已 经 用 软 约束 代替 了 硬 条 件 。 如 果 rembrandt2 为 false， 约束 的 值 
的 样本 时 ， 为 每 个 样本 关联 





为 1.0; 和 否则， 约束 值 为 0.1。 妆 
一 个 权重 ， 权 重 值 等 于 约束 值 。 


























olean) => if (b) 











您 生成 表 11-1 和 表 11-2 1 
这 样 得 到 的 加 权 样 本 如 表 11-3 所 示 。 





0.1 else 1.0) 

















做 好 了 准备 。 





掉 介 绍 的 算法 不 同 的 部 分 是 使 用 了 加 权 样 本 : 
仅 根 据 其 权重 代表 部 分 样本 。 然 后 ， 可 能 世界 上 的 概率 




















样 如 何 避 











基于 样本 的 条 件 和 约束 值 。 当 
这 通过 将 样本 权重 乘 以 约束 值 





将 深 









































表 11-3 加权 样 本 。 每 个 样本 的 权重 是 Flip(0.2) 上 的 约束 值 



































元 素 第 1 个 样本 第 2 个 样本 第 3 个 样本 第 4 个 样本 
TIembrandt1l true false true false 
rembrandt2 false false true false 
samePainter false true true true 

权重 1.0 1.0 0.1 1.0 
一 组 加 权 样 本 定义 了 可 能 世界 的 概率 分 布 。 想 象 随 机 选择 样本 的 过 程 ， 其 中 选择 某 














个 样本 的 概率 与 其 权重 成 正比 。 为 了 得 到 选择 某 个 样本 的 概率 ， 您 简 和 






































地 将 其 权重 除 以 














所 有 权重 的 总 和 ( 表 11-4 中 














的 4 个 相 
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# 本 权重 总 和 为 3.1)。 例如 ,选择 第 一 个 样本 的 概率 
为 1/3.1, 而 选择 第 3 个 样本 的 概率 为 0.1/3.1。 某 个 可 能 世界 的 概率 为 选择 与 其 相符 的 样 





本 的 概率 总 和 。 所 以 , 对 应 于 第 2 个 和 第 4 个 样本 的 可 能 世界 概率 为 2.0/3.1。 综 上 所 述 ， 




































































表 11-3 中 的 加 权 样 本 定义 了 表 11-4 中 的 后 验 概率 分 布 。 
表 11-4 重要 性 抽样 产生 的 一 组 加 权 样 本 定义 的 后 验 概率 分 布 。 可 能 世界 的 概率 和 与 之 相符 的 样 
本 权重 总 和 成 正比 
Flip(0.4) Flip(0.2) Flip(0.4) === Flip(0.2) 概率 
true false false 1.0/3.1=0.3226 
false false true 2.0/3.1=0.6452 
true true true 0.1/3.1= 0.0322 
寻 为 加 权 样 本 定义 了 一 个 概率 分 布 , 它们 可 以 用 于 回答 查询 , 完成 这 一 工作 很 简单 。 














例如 ， 假定 您 想 知 道 x (Flip(0.4) 元 素 ) 为 true 的 概率 。x 为 true 的 样本 为 第 一 个 禾 
个 样本 。 它 们 的 总 权重 为 1.1。 将 总 权 习 
P(x =true)=1.1/3.1=0.3548。 




















假定 您 将 x 上 的 第 二 个 约束 添加 到 我 们 的 程序 中 : 


在 重要 性 抽样 ! 
val rembrandt1 = Flip(0.4) 
val rembrandt2 = Flip(0.2) 


val samePainter = rembrandtl1 
rembrandt2.addConstraint ((b: 
rembrandt1.addConstraint ((b: 











rembrandtl 为 true 


正如 前 向 抽样 ， 需 














， 当 您 将 元 素 乘 以 证 据 时 ， 








的 估算 。 重 要 性 抽样 和 













































































使 ) 























=== rembrandt2 
Boolean) => if (b) 
Boolean) => if (b) 


























回 ”平均 来 说 ， 样 本 分 布 等 于 真实 分 布 。 


加 ”使 用 的 样本 越 多 ， 可 以 预 
对 此 ， 重 要 性 抽样 是 概率 编程 ! 


























避免 拒绝 
在 前 一 个 例子 中 ， 









































标 a 


y.observe (false) 


等 价 于 


y.addConstraint ((b: Boolean) 


























强调 的 是 ， 这 不 是 精确 的 后 验 概 率 ， 只 是 根据 生成 的 样 
条 向 抽样 有 相同 的 属性 。 























期 样本 分 布 越 接近 了 
很 好 的 一 种 近似 推 




















YH 
































证 据 以 软 约束 的 方式 指定 。 这 是 一 件 好 事 ， 因 为 
就 是 处 理 约束 。 但 是 如 果 您 有 一 个 条 伯 
条 件 等 价 于 值 为 0 和 1 的 约束 。 例 如 ， 您 可 以 断言 如 1 


=> if (b) 0.0 else 1.0) 


| 的 是 每 个 证 据 元 素 的 约束 值 。 





全 二 有 二 SR Qa3} 
0.8 else 0.3) 


rembrandt2 为 true 的 可 能 世界 权重 等 于 0.8 x 0.1 = 0.08 。 











[第 三 


E 除 以 所 有 样本 的 总 权重 (3.1)， 可 以 得 到 估算 的 





列 如 ， 








-真实 分 布 。 
里 方法 。 
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-去 

















性 抽样 的 目 





FF， 会 发 生 什么 ? 
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第 11 章 抽样 算法 
对 为 您 知道 如 何在 重要 性 抽样 中 处 理 约束 , 所 以 也 可 以 处 理 条 件 。 但 是 有 一 个 陷阱。 
如 果 样 本 与 硬 条 件 不 符 ， 其 权重 将 为 0， 所 以 对 于 后 验 分 布 没 有 任何 贡献 。 这 等 同 于 拒 
绝 该 样本 。 因 为 您 知道 样本 的 权重 最 终 将 为 0， 可 能 直接 拒绝 以 节省 一 些 工 作 量 。 
| 是 时 候 看 看 基本 重要 性 抽样 算法 的 伪 代 码 了 。 如 下 代码 返回 样本 及 其 权重 。 
. 假设 9 是 变量 的 拓扑 顺序 。 
2. W 一 1《〈 权 重 初始 化 为 1， 如 果 没 有 约束 ， 最 终 约 束 也 将 为 1)。 








3. 对 于 顺序 O 中 的 每 个 变量 V: 


a) 假设 Par 是 V 的 父 
b) 假设 xpu 是 之 前 为 Par 生成 的 值 。 























变量 。 


























































































































































































































































































































































































































c) 从 P(V |Par = xpa 中 提取 xv。 

d) 如 果 xv 与 V 的 条 件 不 一 致 ， 转 到 2。 

e) w 一 WwW* (适用 于 X, 的 V 上 约束 的 乘积 ) 

4. 返回 (x, w)。 

上 述 算法 在 硬 约束 上 并 不 比 拒绝 抽样 更 好 , 我 曾经 说 过 后 者 可 能 是 一 个 不 实用 的 算 
法 ， 即 使 只 有 一 个 样本 ， 生 成 的 时 间 也 过 长 。 即 使 不 可 能 完全 避免 拒绝 与 条 件 不 符 的 样 
本 ， 也 应 该 尽 可 能 做 到 。 这 个 问题 的 解决 方案 是 通过 程序 试图 “ 回 推 证 据 *”， 使 后 续 元 
素 上 的 条 件 变 成 之 前 元 素 上 的 软 约束 。 完 成 这 一 目标 的 通用 过 程 很 复杂 ,但 是 我 可 以 用 
如 下 例子 说 明 : 
val x = Betal(l, 1) 
val y = Flip (x) 
y.observe (false) 

让 我 们 来 分 析 上 述 例 子 。 首 先 ， 为 x 生成 一 个 值 。 假 定 生 成 的 值 为 0.9。 接 下 来 ， 
使 用 Flip(0.9) 为 y 生成 值 。 该 变量 取 值 为 true 的 概率 是 0.9， 为 false 0 0.1。 所 以 
观测 值 满 足 条 件 的 概率 是 0.1。 您 不 需要 对 y 进行 抽样 就 可 以 知道 这 一 点 ;从 Flip 的 定 
义 立 即 可 以 看 出 。 在 得 到 x 的 样本 0.9 之 后 ， 0 定 权重 0.1, 不 

要 对 y 进行 抽样 。 类 似 地 ， 如 果 x 的 样本 为 0.3， 观 测 值 满足 条 件 的 概率 是 0.7， 所 以 

您 立刻 可 以 为 该 样本 指定 权重 0.7。 

一 般 来 说 ， 如 果 x 的 抽样 得 到 值 p， 该 观测 值 的 概率 为 1-p。 您 可 以 引入 x 上 的 一 
个 约束 ， 模 拟 为 样本 指定 权重 1-p 的 过 程 。 这 个 约束 等 于 1 减 去 x 值 。 然 后 ， 您 可 以 强 




































































制 y 为 false; 您 知道 从 该 观测 值 可 以 看 出 ，y 必然 为 false， 您 已 经 考虑 了 这 个 观测 值 对 
x 上 的 约束 发 生 的 影响 。 总 结 起 来 ， 您 的 程序 等 价 于 : 
val x = Beta(1，1) 
x.addConstraint ((d: Double) => 1 - qd) 
val y = Constant (false) 
现在 知道 如 何 将 硬 条 件 转 换 为 软 约束 了 吧 ? 结果 是 , 您 不 会 拒绝 这 个 程序 中 的 任何 
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Wn 


样本 ， 而 是 根据 x 的 值 为 其 设置 一 个 权 习 
注意 : Figaro 没有 包含 为 所 有 条 件 进行 上 述 运算 的 通用 规程 ， 而 是 使 用 一 组 处 理 常 见 情况 的 简 
单 启发 方法 。 使 用 程序 变换 移动 前 面 的 条 件 和 约束 是 一 个 活跃 的 研究 领域 ， 我 们 预测 未 
来 Figaro 在 这 方面 的 能 力 将 得 到 改善 。 
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11.2.2 在 Figaro 中 使 用 重要 性 抽样 


在 Figaro 中 使 用 重要 性 抽样 很 简单 。Figaro 提供 了 重要 性 抽样 的 两 种 版 本 : 一 次 性 
版 本 运行 于 给 定 的 样本 数量 上 ， 任 意 时 间 版 本 可 以 运行 任意 长 的 时 间 ， 在 运行 中 同时 得 
到 查询 的 答案 。 使 用 这 些 算法 必须 导入 com.cra.figaro.algorithm.sampling.Importance。 下 
面 的 代码 在 查询 目标 rembrandtl 和 rembrandt2 的 10000 个 样本 上 运行 一 次 性 的 重要 抽样 
算法 ， 然 后 对 结果 发 出 查询 : 
val algorithm = Importance (10000, rembrandt1, rembrandt2) 
algorithm.start () 
println(algorithm.probability (rembrandt1, true)) 


println(algorithm.distribution(rembrandt2) .toList) 
algorithm.kill () 


重要 性 抽样 的 任意 时 间 版 本 在 运行 时 收集 越 来 越 多 的 样本 ,得 到 越 来 越 好 的 查询 答 
案 。 不 传递 样本 数量 的 整数 参数 而 只 传递 查询 目标 ， 就 可 以 使 用 任意 时 间 版 本 。 您 通常 
可 以 在 算法 运行 时 进行 其 他 工作 。 等 待 一 段 时 间 的 简单 方法 是 调用 Thread.sleep， 该 命 
令 等 待 给 定 的 毫秒 数 之 后 继续 。 
下 面 的 代码 运行 任意 时 间 重 要 性 抽样 1 秒 ， 打 印 查 询 答案 ， 然 后 再 运行 1 秒 ， 再 次 
打印 答案 : 
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val algorithm = Importance (x, y) 
algorithm.start () 

Thread.sleep (1000) 
printiln(algorithm.probability (x, true)) 
printlin(algorithm.distribution(y) .toList) 
Thread.sleep (1000) 
printiln(algorithm.probability (x, true)) 








printlin(algorithm.distribution(y) .toList) 
algorithm.kill () 


王 意 时 间 算 法 在 单独 线程 中 运行 。 在 结束 时 杀 死 任意 时 间 算 法 以 释放 该 线程 很 
要 ; 否则 它 将 继续 使 用 系统 资源 。 

如 果 想 要 停止 算法 工作 ,在 以 后 恢复 ,可 以 使 用 algorithm.stopO0 和 algorithm.resumeO 
方法 ， 这 些 方法 的 作用 正如 您 的 预期 ， 例 如， 可 以 使 用 如 下 代码 : 


val algorithm = Importance (x, y) 
algorithm.start () 
Thread.sleep (1000) 


























| 四 
tn\ 








a! 







































































304 


algorithm.stop() 
// Show an interactive visualization and wait for the user to be done 


algorithm.resume () 
Thread.sleep (1000) 
algorithm.stop() 
// Show an updated visualization, etc. 
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11.2.3 ”让 重要 性 抽样 为 您 工作 


问题 


何 时 应 该 使 ) 














ee 














您 的 模型 有 连 








续 变量 。 


? 使 用 这 种 算法 通常 有 两 个 主要 原 
正如 您 在 第 10 章 中 所 看 到 的 ， 

































































里 连续 变 上 


旺 ， 但 是 
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样 
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和 具有 连 


I 连 
计量 

















归纳 为 相对 


续 变量 上 
， 将 其 作为 连 给 


小 的 离散 变量 那么 有 效 。 如 果 想 要 考虑 
算法 。 


常 必须 枚 举 那些 变量 的 少 











对 。 
虽然 因子 分 解 算法 可 以 处 
> 数值 ， 因 此 不 像 处 理 范 围 较 
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间 这 些 连续 变量 





量 的 整个 范围 ， 应 该 使 用 重 














少 的 数值 ， 


实 变 时 


的 模型 示例 之 一 是 预测 不 同 产品 
量 最 为 自然 。 
这 可 能 无 法 得 





线 销 售 额 的 模型 。 








销售 额 以 美元 
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到 您 所 需要 
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您 的 模型 结构 可 变 。 如 果 
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要 强 i 
是 收集 指 
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低 ， 预 期 的 
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的 某 些 部 分 只 在 


子 分 解 算法 ， 就 必须 将 销售 
的 多 
其 他 变量 的 特定 值 下 存在 ， 
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关 的 变量 。 


这 方面 
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是 第 8 章 中 介绍 
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E 何 时 间 步 中 在 饭店 








就 坐 的 人 数 都 是 可 变 的 。 在 

















抽样 进行 该 模型 的 推 
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由 样 并 不 是 万 能 的 ， 即 
羊 本 和 收集 同样 数量 的 常规 未 加 
效果 可 能 仅 等 同 于 拒绝 











很 难 精确 描述 


一 般 来 说 ， 样 本 的 平均 权 习 
越 小 。 








了 效 样本 数 衣 
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和 约束 表达 的 说 



































权 样 本 不 同 。 如 果 使 
由 样 收集 的 100 个 样本 。 


的 总 和 越 小 ， 有 效 样本 数 越 
FE 据 的 概率 。 因 此 ， 证 据 的 概 
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1 样 ， 在 拒绝 抽样 中 ， 证 据 概 
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EE 满足 的 硬 条 件 


， 这 种 条 件 会 导致 大 量 的 拒 允 


方法 是 避免 可 能 





性 极 小 的 证 据 。 例 如 ， 
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现 与 大 部 分 条 件 一 致 的 样本 将 得 
出 较 好 的 查询 答案 。 遗 憾 
关键 的 条 件 是 与 更 多 条 件 
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氏 但 非 零 的 约束 值 。 如 } 
到 比 和 较 少 条 件 相 





况 。 接 下 来 的 补充 材料 ， 








果 您 
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和 是， 虽然 我 可 以 直观 3 
相符 的 样 
个 例子 。 
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# 本 更 高 的 权 习 











用 约束 替代 它们 ， 就 会 发 
。 这 在 许多 情况 
也 解释 这 一 点 ， 但 是 在 实践 中 









































本 比 与 较 少 条 件 相符 的 样本 更 接近 
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示例 : 用 重要 性 抽样 破解 密码 
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想象 一 下 用 概率 推理 破解 密码 。 密 码 是 一 个 


























用 编码 写成 的 句子 ， 字 母 表 中 的 每 个 字母 都 被 











不 同 的 字母 替代 。 您 可 以 建立 一 个 概率 模型 ， 随 机 选择 替代 每 个 字母 的 特定 字母 。 您 可 能 有 两 











组 条 件 : 任何 两 个 字母 都 不 会 
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对 于 拒绝 抽样 ， 您 将 随机 





由 样 一 组 蔡 换 ， 然 后 检查 它们 
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中 所 件 








的 一 组 替换 的 概率 极 小 ， 所 以 生成 一 个 样 
可 以 生成 满足 大 部 分 ( 但 是 并 非 全 部 ) 约 









































本 的 时 间 很 长 。 但 是 如 果 将 
束 的 蔡 换 。 这 些 样本 可 以 帮助 您 估算 
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在 他) 博 凡 

















出 








条 
这 














未 





改 成 软 约束 ， 就 









































虽然 无 法 生成 完 











用 的 





吾 验 分 布 。 


全 正确 的 答案 , 但 是 可 以 从 大 部 分 高 权重 样本 中 发 现 ， E 被 替换 为 字母 N。 


这 能 帮助 您 进行 猜测 ， 不 断 推进 以 解决 谜 题 。 这 一 过 程 和 人 类 破解 密码 的 过 程 有 些 类 似 。 











性 抽样 的 本 质 是 : 
是 一 种 适合 于 任何 模型 的 通用 算法 。 


古 





















































当 
过 


放松 证 据 提供 帮助 。 


11.2.4 重要 性 抽样 的 应 用 





当 证 据 的 概率 较 低 时 ， 因 为 有 效 样本 数 很 小 ， 该 算法 可 能 失败 ， 但 是 





一 




















您 已 经 看 到 ， 在 没有 可 能 性 极 小 的 证 据 时 ， 重 要 性 

















沾 全 











分 重要 性 抽样 的 实际 应 | 
通过 模拟 预测 


j 都 是 证 据 很 少 或 者 完 




























































































介绍 的 最 简单 的 育 








和 向 抽样 算法 。 前 向 抽检 














当 您 完全 没有 证 据 (程序 中 没有 条 件 或 者 约束 ) 时 ， 重 要 性 # 
半 通 过 生成 大 量 未 来 的 可 能 i 











档 

















您 
: 


























等同 


可 以 通 


/CA 


抽样 工作 得 更 好 。 相 应 地 ， 大 部 
没有 证 据 的 问题 。 





F 11.1.1 小 节 

















发 展 。 这 样 使 用 时 ，Figaro 可 以 作为 一 个 
抽样 算法 实现 上 述 目的 。 您 可 以 在 许多 相 
体育 比赛 预测 ) 中 以 这 种 方式 使 用 Figaro。 
例如 ， 假 定 您 想 要 模拟 一 个 足球 赛季 ， 



































有 效 的 模拟 系统 。 
关 应 用 《〈 如 选举 、 军 习 


预测 球 队 最 后 的 














您 可 以 使 用 























AC i 心 ; 想 要 
于 比赛 双方 能 力 的 单独 比赛 模型 ， 并 将 其 嵌入 到 















































您 的 模型 可 以 考虑 球员 伤 病 等 问题 。 进 行 前 
以 提出 最 终 的 联赛 排名 表 。 使 用 这 些 模拟 ， 

















可 以 


十 算 球 队 


本 /但 生 f 
顾 得 冠 























要 考虑 整个 赛季 的 进程 ， 因 此 十 分 复杂 ， 
这 样 使 用 重要 性 抽样 时 ， 您 通常 拥有 初始 条 伯 

















样 是 进行 这 种 推理 

















这 相 
立 这 些 条 件 的 模型 有 三 种 方法 。 






































行动 计划 、 


运行 ， 预 测 未 来 的 
Figaro 的 重要 性 


经 济 制度 和 


FE 名 。 您 可 以 创建 一 个 依赖 
所 有 比赛 组 成 的 整个 赛季 下 
向 抽样 时 ， 您 将 模拟 整个 赛季 的 每 场 比赛 ， 
军 的 概率 。 
的 自然 方法 。 











的 模型 中 。 











这 个 模型 需 


F， 如 联赛 中 所 有 球 队 的 初始 实力 。 建 








图” 固定 Scala 值 一 一 这 种 方法 可 以 高 效 地 推理 ， 但 是 无 法 建立 赛季 























机 变化 的 模型 。 如 果 没 有 规划 模型 的 变化 ， 这 可 
网 如 ， 如 果 您 的 球 队 初 始 实力 为 0.96， 可 以 使 

















国 。 Figaro 常量 ( Constant ) 元 素 一 一 








球 队 实 力 随 











台 忆 上 昌 
用 十 


最 佳 的 方法 。 
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] Constant(0.96) 元 素 表 示 其 初始 实力 。 然 后 ， 您 可 以 在 赛季 的 每 个 时 点 用 不 同 
的 元 素 表示 当时 的 实力 。 这 种 方法 的 好 处 是 允许 实力 在 赛季 中 变化 ， 但 是 在 赛 
季 开 始 时 没有 必要 引入 关于 实力 的 证 据 。 常 量 元 素 只 能 有 一 个 值 ， 所 以 球 队 的 
初始 实力 始终 为 0.96。 这 使 得 前 向 抽样 可 以 高 效 工作 。 

加 ”具有 不 固定 分 布 的 Figaro 元 素 一 一 如 果 您 对 初始 条 件 不 确定 时 可 以 这 么 做 。 例 
如 ， 对 于 每 个 球 队 ， 您 可 能 认为 其 实力 分 布 于 某 个 范围 例如 ， 您 的 球 队 
实力 可 能 在 0.94 和 0.98 之 间 ， 可 以 使 用 Uniform(0.94, 0.98) 元 素 。 这 样 做 的 好 

处 是 没有 必要 选择 一 个 特定 值 。 但 是 如 果 您 心中 有 一 个 特定 值 (如 0.96) ,那么 

使 用 常量 元 素 更 好 ， 而 不 是 使 用 这 种 方法 并 将 证 据 设 置 为 0.96。 

用 关于 初始 状态 的 证 据 预 测 
如 果 您 不 知道 准确 的 初始 状态 ， 可 能 有 某 些 相关 的 证 据 。 例 如 ， 您 可 能 相信 球 队 的 

实力 与 上 一 赛季 的 最 终 排 名 有 关 ， 并 用 赛季 之 后 转 入 和 转 出 的 球员 进行 调整 。 为 了 加 入 

这 些 证 据 ， 您 可 以 对 前 一 赛季 进行 抽样 ， 以 赛季 最 终 排名 作为 证 据 ， 推 断 前 一 赛季 所 有 

球 队 的 实力 。 然 后 ， 根 据 球员 的 转 入 转 出 情况 对 它们 的 实力 进行 调整 。 最 后 ， 您 可 以 使 

用 这 些 实力 作为 初始 条 件 模拟 新 赛季 。 下 面 是 实现 上 述 功能 的 Figaro 代码 骨架 : 


val lastYearsStrengths = Array.fill (Uniform(0, 1)) 


SS 


























































































































































































































































































































val lastYearsTable = PlaySoccerSeason (LastYearsStrengths) 
lastYearsTable.observe (actualTable) 





val thisYearsStrengths = 
lastYearsStrengths.map((strength: Element [Double]) => adjust (strength)) 





val thisYearsTable = playSoccerSeason (thisYearsStrengths) 
printiln(Importance.probability(thisYearsTable, (t: Table) => myTeamTop (t))) 


要 关于 初始 状态 的 证 据 概 率 不 会 太 低 ， 重 要 性 抽样 就 是 这 一 应 用 的 出 色 候 选 。 如 
果 您 观察 了 整个 赛季 的 比赛 结果 ， 对 于 重要 性 抽样 来 说 ， 证 据 就 太 多 了 ， 使 用 MCMC 
的 效果 更 好 。 

您 可 以 想象 将 这 一 推理 扩展 到 多 个 赛季 。 也 许 ， 可 以 使 用 3 个 过 去 的 赛季 决定 初始 
条 件 。 在 每 个 过 去 的 赛季 中 ， 从 赛季 的 初始 实力 开始 ， 模 拟 该 赛季 的 比赛 ， 观 察 联 赛 排 
名 ， 并 根据 球员 的 增删 进行 调整 ， 得 出 下 一 赛季 的 实力 。 这 些 推理 都 可 以 用 重要 性 抽样 
实现 。 

在 这 里 , 我 所 描述 的 是 动态 模型 推理 所 用 的 粒子 过 滤 算 法 的 基本 原理 。 在 粒子 过 滤 
， 从 一 组 表示 系统 在 茶 个 时 点 的 当前 状态 的 样本 开始 ， 使 用 重要 性 抽样 考虑 该 时 点 的 
正 据 。 粒 子 过 滤 增 加 了 一 个 重新 抽样 步骤 。 您 将 在 第 13 章 中 学 习 关 于 粒子 过 滤 的 所 有 
知识 ， 但 是 在 这 里 我 要 指出 ， 重 要 性 抽样 的 主要 应 用 之 一 就 是 粒子 过 滤 。 

对 证 据 较 少 的 复杂 过 程 的 推理 
重要 性 抽样 不 仅 用 于 预测 未 来 ， 对 于 推理 任务 也 很 有 效 ， 这 种 任务 的 目标 是 根据 查 
询 变 量 的 效果 推断 该 变量 值 。 通常， 在 产生 结果 的 过 程 很 复杂 且 证 据 变 量 不 多 时 使 用 重 
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要 性 抽样 。 下 面 是 一 个 例子 。 

社会 化 网 络 分 析 使 用 各 种 网 络 生成 模型 ， 如 Erdos-Renyi 模型 和 Barabasi-Albert 优 
先 连接 模型 。 社 会 科学 家 们 可 能 想 要 知道 哪个 模型 更 适合 于 某 种 观察 到 的 网 络 。 不 同 模 
型 可 能 产生 不 同 的 统计 数字 ， 如 节点 最 大 邻接 数量 ， 或 者 两 个 节点 间 的 平均 距离 。 使 用 
这 些 统计 ， 可 以 推断 可 能 已 经 使 用 了 哪 种 网 络 生成 过 程 。 在 Figaro 中 , 不同 的 网 络 生 成 
模型 将 返回 Element[Network]。 统 计 将 在 这 些 元 素 之 上 运行 ， 并 返回 Element[Double]。 
下 面 是 这 一 应 用 的 代码 骨架 : 


class Network sa 
















































































































































































def erdosRenyi: Element [Network] = ... 

def barabasiAlbert: Element [Network] = .… 
def maxNeighbors(n: Network) = .… 

def averageDistance(n: Network) = .… 

Val er = erdosRenyi() 

Val ba = barabasiAlbert () 

val myNetwork = discrete.Uniform(er, ba) 


Apply(myNetwork, (n: Network) => 
maxNeighbors(n)) 的 简写 形式 


val mn = myNetwork .map (maxNeighbors) 








val ad = myNetwork .map (averageDistance) 让 屎 作法 人 再 国 疯 
ee 为 条 件 设 定 一 个 范围 ， 避 免 








i 已 由 上 
ad.addCcondition((d: Double) => dq > 0.31 gg dq < 0.35) 它 的 可 能 性 太 小 
println(Importance.probability (myNetwork, er)) ， 








重要 性 抽样 在 这 种 场合 下 很 有 效 ， 因 为 证 据 仅 在 网 络 的 摘要 统计 中 。 尽 管 不 太 可 能 
生成 特定 的 网 络 , 但 是 许多 网 络 的 统计 数字 类 似 , 所 以 摘要 统计 的 概率 不 会 太 小 。 相 反 ， 
如 果 您 已 经 观察 到 精确 的 生成 网 络 ,任何 一 种 网 络 生成 方法 恰好 生成 观察 到 的 网 络 的 可 
能 性 都 很 小 ， 所 以 重要 性 抽样 不 是 很 有 效 。 

从 上 述 讨论 可 以 看 出 ,重要 性 抽样 仅 在 证 据 变量 不 太 多 且 证 据 的 概率 不 太 小 的 情况 
下 实用 。 现 实 世 界 中 的 许多 情况 不 满足 这 些 条 件 ， 所 以 需要 不 同 的 算法 。 一 般 来 说 ， 这 
个 算法 就 是 下 一 节 要 讨论 的 MCMC。 





















































































































































11.3 马尔 科 夫 链 蒙特 卡 洛 抽样 


马尔 科 夫 链 蒙 特 卡 洛 (MCMC) 算法 解决 重要 性 抽样 的 根本 局 限 性 。 在 重要 性 抽样 
， 生 成 一 个 有 高 权重 的 “好 ”样本 可 能 需要 很 长 的 时 间 。 在 生成 一 个 样本 之 后 ， 您 必 
重新 开始 ， 生 成 下 一 个 样本 。MCMC 的 主要 原理 是 在 每 个 样本 中 不 重新 开始 ， 而 是 
前 一 个 样本 停止 的 地 方 开 始 算法 的 每 一 步 。 这 有 两 个 主要 的 好 处 。 

四 MCMC 可 以 更 快 地 得 到 有 较 高 概率 的 样本 。 

国 找到 高 概率 的 样本 之 后 ，MCMC 倾向 于 停留 在 高 概率 样本 的 区 域 
MCMC 是 灵活 、 强大 的 算法 ， 我 们 来 看 看 它 的 工作 方式 ， 然 后 考虑 实践 
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308 第 11 章 
11.3.1 MCMC 的 工作 方式 
我 们 使 用 如 下 的 示例 程序 说 明 MCMC 的 工作 方式 : 
val x = Normal (0.75, 0.2) 
val y = Normal (0.4, 0.2) 


x.setCondition((d: Double) 
y.setCondition((d: Double) 


=>d>0 && 
=>d>0 g&& 
val pair = ^^(x, y) 

printin (MetropolisHastings. 


(xy: (Double, Double)) 








这 个 程序 定义 两 个 正 态 分 布 随机 数 ， 





dd < 1) 
如- < 1) 


probability(pair, 
= WY > 0 feé RY 2 V5)) 

















并 规定 了 确保 其 值 在 0 和 1 之 间 的 条 件 。 然 后 ， 









































创建 由 两 个 数字 组 成 的 配对 。 最 后 ,使 用 








Metropolis-Hastings 算法 (Figaro 的 MCMC 算 





法 ) 计算 两 个 数 均 大 于 0.5 的 概率 。 








之 间 的 正方 形 区域 )。 可 能 世界 上 有 某 利 


图 11-7 展示 了 MCMC 的 工作 方式 。 





概率 分 布 ; 


图 中 显示 一 组 可 能 世界 (x 和 y 取 值 为 0 和 1 
圆 形 区 域 表 示 有 高 概率 的 可 能 世界 。 
































MCMC 算法 经 














历 一 个 状态 序列 。 在 每 个 时 间 步 中 ， 它 随机 地 迁移 到 一 个 新 状态 。 每 个 


了 
































步骤 都 是 随机 的 ， 但 是 它 倾向 于 转移 到 概率 较 高 的 状态 中 。 最 终 ， 算 法 通常 到 达 具 有 高 
概率 的 状态 。 
4y 
1 一 可 能 世界 
人 全 一 
@- | 一 一 一 高 概 来 区 域 
0 
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图 11-7 MCMC 过 程 : 





























为 什么 MCMC 有 效 



































点 的 逻辑 ， 就 掌握 了 该 算法 的 精髓 。 

















让 我 们 尝试 理解 MCMC 为 什么 有 效 。 





1 民 





算法 随机 地 在 一 系列 状态 中 转移 ， 逐 渐 接近 高 概率 的 状态 
































需要 理解 的 关键 点 有 三 个 ， 如 果 理 解 了 这 三 








顾名思义 ，MCMC 依赖 第 8 章 中 介绍 的 马尔 科 夫 链 理 论 。 您 应 该 记得 ， 马 尔 科 夫 





链 是 经 历 一 系列 状态 的 动态 系统 的 一 种 模型 。 在 每 个 时 间 步 中 ， 系 统 根据 某 种 











条 件 概 率 
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本 








分 布 ， 从 当前 状态 迁移 到 下 一 个 状态 。 很 容易 看 出 MCMC 算法 定义 马尔 科 夫 链 的 原 
它 经 历 系统 的 一 系列 状态 , 在 每 个 时 间 点 根据 事先 定义 的 过 程 从 一 个 状态 转移 到 下 一 个 
状态 。 图 11-8 展示 了 这 种 马尔 科 夫 链 ， 使 用 的 框图 类 型 与 第 8 章 相 同 。 


图 11-8 展示 MCMC 所 经 历 状态 的 马尔 科 夫 链 















































现在 ， 让 我 们 完成 思想 上 的 一 次 飞跃 ， 从 状态 序列 转向 分 布 序列 。 逻 辑 如 下 : 在 马 
尔 科 夫 链 的 任何 一 次 运行 中 ， 系 统 经 历 一 个 状态 序列 。 在 任何 时 点 ， 系 统 可 能 处 于 一 些 
状态 中 的 任何 一 个 。 当 前 系统 状态 总 是 有 一 个 概率 分 布 ; 在 任何 时 点 ， 都 有 针对 该 时 点 
的 一 个 概率 分 布 。 换 言 之 ， 马 尔 科 夫 链 定义 一 个 分 布 序列 ， 每 个 时 点 对 应 一 个 分 布 。 

让 我 们 来 定义 这 个 分 布 序列 。 根 据 任何 时 点 的 当前 分 布 ， 马 尔 科 夫 链 的 迁移 模型 定 
义 了 下 一 个 分 布 。 在 Figaro 中 ， 这 可 以 用 Chain 实现 ， 如 : 


val nextDistribution = Chain (currentDistribution, (s: State) => 
























































transition(s)) 


下 一 个 分 布 由 如 下 生成 过 程 定义 : 从 当前 分 布 中 提取 的 茶 个 状态 开始 ， 应 用 迁移 函 
数 以 得 到 下 一 个 状态 。 因 此 ， 您 可 以 得 到 如 下 属性 。 

国 给 定 的 初始 分 布 开始 , 马尔 科 夫 链 定义 了 系统 状态 的 概率 分 布 序列 。 
现在 介绍 MCMC 的 微妙 之 处 ， 以 及 它 发 生 作用 的 原因 : 
量 ”要 点 2 一 一 对 于 满足 某 个 数学 条 件 的 任何 马尔 科 夫 链 ， 后 续 状 态 的 分 布 收敛 于 
单一 分 布 。 

这 个 分 布 被 称 作 马 尔 科 夫 链 的 平稳 分 布 。 上 述 过 程 如 图 11-9 所 示 。 该 图 中 最 重要 的 
一 点 是 ， 阴 影 区 域 显示 的 不 是 x 和 yy 的 可 能 状态 ， 而 是 x 和 y 的 概率 分 布 空 间 。 这 个 空 
间 中 的 每 个 点 都 是 一 个 完整 的 分 布 ， 而 不 是 x 和 y 的 一 个 值 。 

马尔 科 夫 链 从 特定 的 初始 分 布 开 始 。 在 MCMC 中 ， 初 始 分 布 由 为 算法 选择 系统 初 
始 状 态 的 过 程 确定 。 在 我 们 的 示例 程序 中 ， 这 个 过 程 选择 x 和 y 的 初始 值 。 例 如 ， 这 个 
过 程 可 能 将 x 和 y 都 设置 为 0.5; 这 将 定义 一 个 概率 分 布 ， 使 该 状态 的 概率 为 1。 
图 中 的 箭头 说 明了 从 某 个 时 点 的 分 布 转移 到 下 一 分 布 的 过 程 ， 同 样 ， 这 不 是 状态 
间 的 迁移 ， 而 是 状态 分 布 之 间 的 转移 。 如 图 所 示 ， 不 管 您 从 哪 一 个 初始 分 布 开始 ， 分 
布 序列 都 收敛 于 一 个 极限 一 一 平稳 分 布 。 平 稳 分 布 可 能 永远 无 法 达到 ， 但 是 经 过 足够 
的 步骤 ， 可 以 接近 到 您 所 预期 的 距离 。 而 且 ， 在 算法 收敛 到 接近 平稳 分 布 之 后 ， 它 将 
保持 接近 




















































































































































































































指定 的 初始 分 布 


所 有 可 能 
概率 分 布 





太 


布 。 那 时 , 您 就 可 以 记录 一 个 样本 。 记 录 档 
老化 时 间 越 长 ， 距 离 真实 的 后 验 分 布 越 近 。 另 一 方面 


MCMC 的 最 后 一 个 要 点 是 : 


图 ”要 点 3 一 一 如 果 设 计 马 尔 科 夫 链 使 3 
那么 从 这 个 平稳 分 布 中 抽样 ， 就 接近 于 从 后 验 分 布 中 和 


MCMC 算法 的 定义 








MCMC 算法 的 精髓 在 于 ， 从 初始 状态 开始 ， 使 月 
在 较 长 的 一 段 时 间 之 后 ， 就 可 以 知道 当前 状态 分 布 接近 于 您 希望 从 中 抽样 的 后 验 分 
本 之 前 经 过 的 马尔 科 夫 链 步 数 称 作 老化 时 间 。 





个 样本 所 需 的 时 间 越 长 。 


在 11.3 小 节 开 始 时 我 曾经 提 到 , MCMC 的 一 个 好 处 是 ， 找 到 高 概率 状态 之 后 ， 








就 从 该 状态 开始 ， 而 不 是 从 头 玫 
用 马尔 科 夫 链 在 


























但 是 ， 这 里 有 











步 的 x 值 将 接近 于 0.9。 它 





实践 中 人 们 发 现 ， 使 
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马尔 科 夫 链 收 敛 于 平稳 分 布 


11-9 马尔 科 夫 链 定 义 的 状态 分 布 随时 间 推 移 而 收敛 ， 阴 影 
路 径 展 示 了 从 不 同 初 始 分 布 开始 的 分 布 序列 。 不 管 从 哪个 初始 分 布 开 始 ， 过 程 都 收敛 于 同 








区 域 展示 了 状态 的 所 有 可 能 概率 分 布 。 每 条 











个 平稳 分 布 





F 稳 分 布 成 为 您 打算 从 中 抽样 的 后 验 分 布 ， 














样 。 








上 马尔 科 夫 链 反复 转移 到 某 个 新 状 























将 与 前 一 个 




















图 11-10 展示 了 





使 用 老化 和 间隔 的 MCMC 














》 老 化 














时 间 越 长 ，MCMC 记录 一 





F 始 。 在 MCMC 中 ， 您 
状态 之 间 迁 移 。 原则 上 ， 在 收集 一 个 样 
验 分 布 了 ， 所 以 您 应 该 可 以 在 每 一 步 











够 改善 MCMC 的 性 能 ， 


从 不 回 到 初始 状态 ， 


它 
而 是 继续 使 














值 强 相关 。 这 可 能 导致 查询 
因此 ， 您 可 以 指定 所 收集 样本 之 间 的 间隔 ， 确 保 样本 相互 之 间 
j 某 个 间隔 并 不 一 定 能 


本 之 后 ， 
FP 收集 到 一 个 样本 。 
个 微妙 之 处 : MCMC 后 续 步 又 的 状态 并 不 是 相互 独立 的 。 考 虑 我 
们 的 示例 程序 。 假 定 在 某 个 时 间 步 上 ，x 值 为 0.9。 如 果 马 尔 科 
下 一 





就 已 经 知道 接近 真实 后 


























夫 链 对 x 的 移动 量 很 小 ， 
答案 出 现 偏 差 。 
的 相关 度 较 小 。 但 是 ,在 
姑 为 这 会 造成 样本 







































































| 档 





和 程序 的 进展 情况 。 可 以 看 到 ， 使 用 























11.3 ”马尔 科 夫 链 蒙 特 卡 洛 抽样 311 











老化 确保 收集 到 的 第 一 个 样本 已 经 处 于 高 概率 区 域 ， 但 是 没有 任何 保证 。 您 只 能 猜测 老 
化 所 需 时 间 ， 和 希望 老化 的 效果 足够 大 。 在 图 中 还 可 以 看 到 ， 使 用 间隔 2 确保 后 续 的 样本 
距离 较 远 ， 这 意味 着 它们 有 一 定 的 独立 性 。 



































hy 老化 
| / 一 可 能 世界 
Rt 4— -一 
» 高 概率 区 域 
| 
二 -一 一 小 
间隔 时 间 =2 
7 | 
0 1 














图 11-10 ”使 用 老化 和 时 间 间 隔 的 MCMC 抽样 程序 进程 。 老 化 样本 被 跳 过 ， 因 为 间隔 时 间 为 2， 提 取 每 
两 个 样本 中 的 第 二 个 


下 面 是 MCMC 算法 较为 正式 的 规格 说 明 。 这 一 算法 有 3 个 参数 : 样本 数量 、 老 化 
时 间 和 间隔 时 间 。 

1， 从 马尔 科 夫 链 的 初始 分 布 提取 一 个 初始 状态 。 

2. 老化 阶段 一 一 在 老化 时 间 内 重复 如 下 操作 。 

a) 用 迁移 模型 迁移 到 一 个 新 状态 。 
3. 将 当前 状态 记录 为 第 一 个 样本 。 
4. 抽样 阶段 一 一 重复 如 下 操作 直到 收集 预定 数量 的 样本 。 
a) 在 间隔 时 间 内 重复 如 下 操 
i， 用 迁移 模型 迁移 到 新 状态 。 
b) 将 当前 状态 记录 为 一 个 样本 。 
































中 





















































TT TT 






































11.3.2 ”Figaro 的 MCMC 算法 : Metropolis-Hastings 算法 


MCMC 的 要 点 3 指出 ， 马 尔 科 夫 链 的 设计 使 得 平稳 分 布 成 为 您 从 中 提取 样本 的 后 
验 分 布 ， 由 此 得 到 算法 从 后 验 分 布 中 抽样 的 基础 。 设 计 有 具备 这 种 属性 的 马尔 科 夫 链 有 许 
多 种 方法 。Figaro 的 MCMC 算法 使 用 的 方法 基于 所 谓 的 Metropolis-Hastings (MH ) 算 
法 。MH 因 其 普遍 的 适用 性 而 得 到 广泛 应 用 ， 这 一 特性 也 使 它 适合 于 概率 编程 ， 它 有 能 
力 表达 许多 种 模型 。 

Metropolis-Hastings 的 基本 思路 是 使 用 迁移 模型 有 如 下 两 个 步骤 的 马尔 科 夫 链 。 

1. 根据 当前 状态 〈 模 型 中 变量 的 一 组 值 )， 提 的 状态 。 这 个 新 状态 根据 提议 的 
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分 布 选择 ， 该 分 布 
前 状态 ; 例如 ， 它 电 





是 在 给 定 当前 状态 下 ， 下 一 个 状态 的 概率 分 布 。 提 议 的 分 布 取决 于 当 
可 能 与 当前 状态 只 有 很 小 的 距离 。MH 算法 的 设计 艺术 中 ， 大 部 分 是 
























































对 提议 分 布 的 选择 。 

2. 根据 接受 概率 选择 接受 新 状态 还 是 保持 当前 状态 。 接 受 概率 取决 于 提议 分 布 的 
概率 以 及 新 状态 与 当前 状态 的 相对 概率 。 

在 Figaro 中 ， 提 议 分 布 通过 使 用 提议 方案 (proposal scheme) 指定 。 有 一 个 默认 的 



























































提议 方案 ， 以 及 用 了 
1， 随 机 选择 一 











是 未 知 的 ， 例 如 ， 


2. 提出 所 选 元 素 的 一 个 新 值 。 








指定 自 定义 提议 方案 的 API。 默 认 提 议 方 案 的 工作 方式 如 下 。 
个 非 确定 性 元 素 。 非 确定 性 意味 着 在 参数 已 知 的 情况 下 该 元 素 值 也 
Flip 和 Normal 是 非 确定 性 的 ， 而 Constant 和 下 不 是 。 




















3. 根据 选中 的 元 素 更 新 元 素 值 。 








在 默认 方案 
9 定义 提议 方案 ! 
认 方 案 工 作 得 很 好 
定义 提议 方案 在 

































































， 您 无 法 控制 第 1 步 中 选择 的 元 素 ; 它 从 非 确 定 元 素 中 均匀 选取 。 在 
， 您 可 以 提议 多 个 元 素 ， 也 可 以 控制 提议 的 元 素 。 在 某 些 情况 下 ， 默 
， 通 常 值 得 首先 尝试 。 在 其 他 情况 下 , 您 需要 设计 自己 的 自 定 义 方 案 。 
11.4.1 小 节 中 讨论 。 





































































































在 Figaro 中 创建 一 个 Metropolis-Hastings 算法 

















Figaro 提供 以 不 同 参数 配置 创建 MH 实例 的 手段 。 最 常见 的 方法 是 指定 您 想 要 的 样 


本 数量 、 提 议 方案 


MetropolisHastings 


上述 语句 指定 





布 。 这 是 该 算法 的 一 次 性 版 本 ， 它 一 直 运行 到 完成 指定 数量 的 样本 。 该 算法 





间 版 本 ， 在 这 种 版 


MetropolisHastings 





























和 查询 目标 。 例 如 如 下 语句 : 

(100000, ProposalScheme.default, x, y) 

使 用 默认 提议 方案 ， 取 得 10 万 个 样本 ， 以 获得 x 和 y 的 近似 后 验 分 
还 有 任意 时 







































































本 中 不 指定 样本 数量 ， 可 以 运行 任意 时 长 ， 例 如: 





( ProposalScheme .default, x, Y) 








在 该 算法 的 这 
每 个 状态 都 被 收集 





下 语句 可 以 指定 老 


MetropolisHastings 


在 这 个 例 


子 中 ， 











些 版 本 中 没有 老化 参数 , 所 以 MH 立即 开始 收集 样本 。 时间 间隔 为 1: 
为 一 个 样本 。 您 也 可 以 提供 可 选 的 老化 和 时 间 间 隔 参 数 。 例 如 ， 用 如 
化 参数 为 1000， 总 共 取 得 10 万 个 样本 : 


(100000, ProposalScheme.default, 1000, x, y) 


时 间 间 隔 为 1。 如 您 所 见 ， 可 以 指定 老化 参数 和 默认 间隔 1。 指 定 
































化 参数 很 常见 ， 
































忆 为 您 希望 避免 从 马尔 科 夫 链 定义 的 早期 分 布 中 抽样 ， 这 些 分 布 与 真 


























老 
实 4 




















如 果 确 实 想 要 指定 














天 分 布 可 能 相去 其 远 。 但 是 在 大 部 分 情况 下 ,不 需要 担心 时 间 间 隔 ， 可 以 保留 默认 值 1。 























时 间 间 隔 ， 就 必须 同时 指定 老化 时 间 。 老 化 参数 先 出 现 ， 随 后 是 时 间 











间隔 。 例 如 ， 可 以 使 用 如 下 代码 指定 老化 时 间 1000 和 时 间 间 隔 10: 


MetropolisHastings 














(100000, ProposalScheme.default, 1000, 10, x, y) 


也 可 以 使 用 上 述 所 有 变种 
包括 所 有 可 选 参数 。 


样本 数量 
(任意 时 间 版 本 中 忽略 ) 


\ 


v 
MetropolisHastings(100000, 


11.3 ”马尔 科 夫 链 蒙特 卡 洛 抽样 
的 任意 时 间 版 本 。 图 11-11 展示 了 MH 构造 程序 的 和 
老化 时 间 目标 
提议 方案 (可 选 ) (任意 数量 ) 

\ | 

要 v v 

ProposalScheme. default., 1000, 10. x, y) 

和 A 





MH 的 属性 











4 是 
后 





MH 因 其 普遍 适用 性 而 








至 








I 广泛 的 应 用 。 














新 状态 ， 而 是 由 抽检 

















后 ，MH 倾向 于 停留 在 该 











的 场合 下 ，MH 仍然 是 可 

下 面 我 们 举 
找 出 高 概率 状态 ， 而 习 
地 说 ， 假 定 x 和 y 上 的 约束 
样 时 ， 每 10 次 抽样 ! 
性 抽 相 
有 1/100。 这 样 ， 得 到 一 个 可 月 


























过 





fF 过 程 引导 算法 ， 在 高 
区 域 。 
[ 行 的 。 


只 有 1 次 能 够 得 至 
FE， 您 每 次 都 将 从 先 验 分 布 中 生成 新 的 x 和 y， 所 以 两 个 约束 都 取得 高 值 的 概率 只 


既 率 状态 中 抽 档 





时 间 间 隔 
(可 选 ) 


11-11 Figaro 中 的 MH 构造 程序 结构 
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震 构 ， 


它 的 主要 优势 是 不 在 每 次 迭代 中 随机 抽样 





fF。 同 样 ， 在 找到 高 概率 

















这 样 ， 在 





E 要 怕 


抽样 








忆 为 证 据 概率 太 低 而 无 法 了 














一 个 包含 两 个 变量 (x 和 y) 的 简单 例子 ， 
EE 要 性 抽样 不 能 。 假 定 您 在 x 和 y 上 有 
只 在 狭窄 范围 








| 











内 取得 高 值 ， 当 您 从 它们 的 先 验 术 
高 值 ， 在 其 人 











上 | 
玫 














助 您 理 
个 如 


解 为 人 
住 以 满足 上 





的 约束 。 























也 9 次 中 ， 约 束 值 很 低 。 使 有 














上 样本 需要 进行 重要 








另 一 方面 ， 让 我 们 想象 一 











HT 
LI 


下 可 以 单独 提 昌 


x 或 者 y 的 MH 过 程 。 


抽样 的 100 次 迭代 。 























| 么 MH 


区 域 之 
E 常 工作 


能 够 
具体 





降 率 分 布 中 抽 


著 
且 女 


月 习 





平均 起 来 ， 在 对 x 











或 者 y 的 10 次 提议 之 后 ， 其 ! 
次 提议 x 时 ， 它 几乎 总 是 能 


BE 有 
率 区 域 。 同 时 ， 对 y 再 进行 几 

















现在 想象 同一 个 情况 ， 但 是 这 次 有 100 个 变量 。 对 于 
高 值 的 样本 的 概率 为 110:"， 这 意味 着 实际 上 根本 不 可 能 。 
区 域 ， 最 终 找到 所 有 变量 都 有 高 约束 值 的 ; 
上 述 优势 使 MH 对 于 许多 应 用 来 说 都 很 有 吸引 力 ,但 是 
慢 速 算法 。 如 果 没 有 指定 样本 之 间 的 间隔 ， 
间 不 是 相互 独立 的 。 根 据 
好几 个 数量 级 。 如 果 决 定 使 用 间隔 ， 间 隔 必须 足够 大 才能 使 相 
的 时 间 。 而 且 ， 老 化 和 靠近 高 概率 区 域 的 时 间 也 











量 





移 到 高 概率 

















它 可 能 是 一 个 | 


多 得 多 的 样本 ， 因 为 
能 比重 要 性 抽样 高 


互 独立 ， 这 也 就 相应 志 





本 之 

















加 长 了 


够 # 





一 次 的 约束 值 ; 
6 绝 向 约束 值 低 














各 会 较 高 ， 假 定 是 变量 x。 当 MH 之 后 


的 方向 移动 。 所 以 x 几乎 总 是 停留 在 高 概 











再 























次 提议 之 后 ， 














它 的 约束 也 将 取得 高 值 。 


二 


要 性 








抽样 ， 














大 态 。 
它 也 有 
您 通常 必 


体 的 问题 ， 








方 


须 


入 二 
您 需 

















要 的 检 











~ 








生成 样本 














但 是 MH 可 以 一 次 将 一 


E 成 所 有 约束 取 


个 变 


天 点 。 主 要 的 缺点 是 
收集 比重 要 性 抽样 
本 数量 可 


本 相 
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可 能 很 长 。 因 此 ， 在 证 据 概 率 不 是 很 小 的 情况 下 ， 重 要 性 抽样 是 更 好 的 选择 。 

MH 的 第 二 个 缺点 是 其 行为 可 能 难以 理解 、 预 测 和 控制 。MH 的 效率 依赖 于 好 的 提 
议 分 布 的 定义 。 直 观 地 说 ， 您 希望 算法 较 快 地 转移 到 状态 空间 ， 这 样 找到 高 概率 区 域 不 
需要 花费 很 长 的 时 间 ， 而 找到 高 概率 区 域 之 后 就 不 会 很 快 离开 。 这 些 属性 对 提议 分 布 很 
敏感 ; 设计 具备 上 述 属性 的 提议 分 布 可 能 很 难 , 特定 提议 分 布 的 表现 也 难以 预测 。 而 且 ， 
很 容易 意外 地 定义 不 能 完全 探索 状态 空间 的 提议 分 布 。 我 将 在 下 一 节 对 此 进一步 说 明 。 

MH 的 行为 难以 预测 还 产生 了 一 个 副作用 : 难以 知道 老化 时 间 和 总 的 样本 数 。 如 果 
您 不 知道 达到 高 概率 区 域 需要 多 长 时 间 ， 如 何 知道 何 时 停止 老化 ?如 果 不 知道 从 一 个 状 
态 到 几乎 与 之 独立 但 仍 留 在 高 概率 区 域 的 另 一 个 状态 需要 多 长 时 间 ， 如 何 知道 取得 的 样 
本 数量 ? 因此 ， 您 通常 需要 长 时 间 运 行 MH， 观 察 答案 是 否 合理 。 一 种 选择 是 多 次 运行 
以 观察 不 同 运 行 中 得 到 的 答案 是 否 相 似 ; 如 果 不 相似 ， 那 么 取得 的 样本 数 可 能 不 足 。 
忆 此 ， 尽 管 MH 有 很 强 的 能 力 和 普遍 性 ， 但 是 我 常常 将 其 视 为 最 后 手段 。 如 果 其 他 
算法 都 不 可 行 ， 尝 试 MH， 但 是 一 定 要 了 解 ， 使 其 很 好 地 工作 可 能 需要 更 多 的 精力 。 下 
一 节 介 绍 帮 助 MH 更 好 工作 的 技术 。 
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11.4 让 MH 更 好 地 工作 


本 节 介 绍 使 MH 更 好 地 工作 的 技术 。 我 将 使 用 一 个 具有 挑战 性 的 问题 ,如 果 不 使 用 
这 些 技术 ， 该 问题 就 难以 解决 。 
想象 您 试图 预测 奥斯卡 最 佳 演员 奖 的 获得 者 。 有 一 组 候选 人 ， 每 个 候选 人 都 是 在 茶 
部 电影 中 出 演 的 演员 。 根 据 您 的 模型 ， 是 否 获奖 取决 于 演员 的 名 望 和 电影 的 质量 。 
我 们 在 Figaro 中 对 该 模型 的 第 一 次 尝试 是 这 样 的 : 















































































































































class Actor 
val famous = Flip(0.1) 
} 


class Movie { 
val quality = Select (0.3 -> 'low, 0.5 -> 'medium, 0.2 -> 'high) 
} 


class Appearance (val actor: Actor, val movie: Movie) { 
val award: Element [Boolean] = 
CPD (movie.quality, actor.famous, 
'low, false) -> Flip(0.001), 
('low, true) -> Flip(0.01), 
('medium, false) -> Flip(0.01), 
('medium, true) -> Flip(0.05), 
( 
( 


'high, false) -> Flip(0.05), 
'high, true) -> Flip(0.2)) 








11.4 让 MH 更 好 地 工作 315 




















上 述 代码 使 用 了 第 7 章 介 绍 的 面向 对 象 建 模 模 式 ， 应 该 是 不 言 自 明 的 。 但 是 这 段 代 
码 有 些 问 题 。 没有 任何 条 件 能 阻止 不 同 演出 的 获奖 属性 取得 true 值 。 所 以 ， 在 任何 可 
能 世界 中 ， 都 有 任意 数量 的 演出 可 能 获奖 。 您 当然 知道 情况 不 是 这 样 的 ， 所 以 添加 一 个 
条 件 ， 强 制 只 有 某 次 演出 获奖 ， 实 现 如 下 : 







































































def uniqueAwardCondition(awards: List[Boolean]) = { 
awards.count ( => b)== 1 检查 获奖 者 数量 是 
} 和 否 为 1 
val allAwards: Element [List[Boolean]] = 
Inject (appearances.map(_.award): _*) 
allAwards.setCondition (uniqueAwardCondition) <— 创建 一 个 元 素 ,其 值 是 表示 获奖 的 布 





尔 值 列表 ， 从 一 个 演出 数组 中 收集 





设置 这 个 元 素 的 条 件 ， 强 制 
只 有 一 个 人 获奖 


























为 了 完成 情况 的 描述 ， 必 须 创建 演 员 和 电影 的 实例 ， 并 用 演出 将 它们 联系 起 来 。 在 
实践 中 ， 演 员 、 电 影 和 演出 可 以 从 数据 库 中 创建 。 在 本 书 代 码 库 中 ， 我 随机 创建 演出 ， 
代码 如 下 : 


val numActors = 200 






















































































val numMovies = 100 
val numAppearances = 300 


val actors = Array.fill (numActors) (new Actor) 


val movies = Array.fill (numMovies) (new Movie) 





Val appearances = 
Array.fill (numAppearances) (new Appearancel 
actors (random.nextInt (numActors)), 


movies (random.nextInt (numMovies)))) 


遗憾 的 是 ， 如 果 您 直接 将 MH 应 用 到 这 个 问题 ， 它 完全 无 法 工作 。 问 题 在 于 : 在 
有 正 概率 的 可 能 世界 空间 中 ， 只 有 一 次 演出 获奖 。 您 希望 MH 探索 具有 高 概率 的 可 能 世 
界 空间 。 如 果 您 从 一 次 演出 获奖 的 可 能 世界 开始 ， 打 算 转 移 到 另 一 个 状态 ， 在 该 状态 ， 
这 次 演出 没有 获奖 ， 而 由 另 一 次 演出 获奖 。 图 11-12 说 明 这 种 情况 不 会 发 生 的 原因 。 该 
图 展示 了 两 位 演员 、 两 部 电影 和 两 次 演出 的 贝 叶 斯 网 络 ， 但 是 不 管 数量 多 大 都 存在 相同 
的 问题 。 在 默认 的 提议 方案 下 ， 提 议 应 该 改变 某 位 演员 的 声望 、 某 部 电影 的 质量 或 者 茶 
次 演出 的 获奖 状态 。 更 改 演 员 声 望 或 者 电影 的 质量 都 没有 问题 。 但 是 ， 如 果 当 前 状态 满 
足 只 有 一 次 演出 获奖 的 条 件 ， 更 改 某 次 演出 的 获奖 状态 就 必然 会 违反 这 个 条 件 。 如 果 更 
改 目 前 获奖 的 演出 ， 就 将 转移 到 没有 任何 演出 获奖 的 状态 ， 如 果 更 改 当前 没有 获奖 的 演 
出 , 就 会 转移 到 两 次 演出 都 获奖 的 状态 。 在 任何 一 种 情况 下 , 新 状态 都 违反 了 上 述 条 件 
将 被 拒绝 。 没 有 办 法 在 一 个 MH 步骤 中 将 获奖 状态 从 茶 一 次 演出 切换 到 男 一 次 演出 。 
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图 11-12 MH 直接 应 用 到 演员 和 电影 示例 




















中 时 可 能 的 单 步 提议 。 变 量 以 贺 角 矩形 表示 。 对 于 每 个 变量 ， 








当前 值 在 箭头 的 左 侧 ， 可 能 的 替代 值 在 右 侧 。 在 默认 提议 方案 中 ， 每 一 步 MH 都 可 以 将 任何 一 个 变量 从 








当前 值 更 改 为 不 同 的 值 。 两 个 值 不 能 同时 更 改 。 因 此 ， 任 何 改变 获奖 变量 值 的 提议 都 将 违反 唯一 获奖 条 
件 ， 所 以 不 能 被 接受 

















如 何 让 MH 能 够 用 


于 解决 这 个 问题 ? 有 两 种 主要 的 思路 。 第 一 种 是 使 / 



































j 不 同 于 默认 























方案 的 提议 方案 。 例 如 ， 自 定义 方案 可 以 提议 一 次 更 改 两 个 元 素 。 第 二 种 思路 是 避免 不 
能 违反 的 硬 条 件 。 我 们 的 例子 中 的 一 个 问题 是 必须 绝对 满足 唯一 获奖 条 件 ， 提 议 才 能 被 

















接受 。 如 果 您 可 以 放松 这 一 限于 





上 ， 在 某 些 时 候 接 受 0 或 者 2 个 获奖 演出 的 提议 ，MH 算 
































法 有 时 就 能 更 改 获 奖 变 量 。 下 











下 的 两 个 小 节 将 详细 介绍 这 两 种 思路 。 





自 定 义 提 议 


第 一 个 问题 是 您 使 用 


11.4.1 

















了 默认 提议 方案 。Figaro 提供 了 








有 
您 应 





述 自 定 义 方 案 的 语言 。 




















该 记得 ， 默 认 提 议 方案 随机 选择 一 个 非 确定 性 元 素 ， 而 自 定义 提议 方案 可 以 让 您 提议 多 





二 


个 元 素 ， 控 制 提议 的 元 素 是 哪 一 些 。 特 别 是 ， 自 定义 提议 方案 可 以 帮助 您 : 





图 ”依次 提议 多 个 元 素 。 


图 ”在 多 个 备 选 元 素 中 选择 。 

国 ”从 一 个 元 素 开始 ， 根 据 该 元 素 值 决定 如 何 继续 。 

下 面 搭配 的 补充 材料 提供 了 上 述 功能 的 实现 细节 。 现在 我 将 介绍 如 何 为 演员 与 电影 
个 自 定义 提议 方案 。 在 本 例 中 ， 您 希望 能 够 同时 提议 两 次 演出 。Figaro 使 用 














示例 创建 
如 下 结构 依次 提议 多 个 元 素 : 


ProposalScheme (element1, element2, ...) 
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PoposalScheme ( 
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appearances (random.nextInt (numAppearances)) .award, 


appearances (random.nextInt (numAppearances)) .award) 


有 时 候 ， 您 还 希望 提议 演员 的 声望 或 者 
me， 让 算法 在 多 个 提议 方案 中 选择 ， 为 每 个 选择 指定 一 个 概率 。 在 我 
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使 用 DisjointSche 
们 的 例子 中 ， 创 建 一 个 Scala 值 sheme， 包 含 
val Scheme: ProposalScheme = { 
DisJjointScheme ( 
(0.5, () => 


影 的 


你 相 


心 j 


有 


质 








里 。 


的 award 元 素 : 


为 了 得 
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此 ， 如 果 appearances 是 Appearance 类 的 实例 数组 ， 长 度 为 numAppearances， 可 
以 使 用 如 下 代码 创建 一 个 提议 方案 ， 提 议 两 个 随机 演 


到 所 需 的 效果 ， 您 可 以 


要 的 DisjointScheme: 


ProposalScheme (appearances (random.nextInt (numAppearances)) .award, 


(0.25, 


appearances (random.nextInt (numAppearances)) .award)), 


(7 => 


Proposalscheme (actors (random.nextInt (numActors)).famous)), 


(O025. 


(0) (> 


ProposalScheme (movies (random.nextInt (numMovies)) .quality))) 





现在 ,您 已 经 有 了 所 需 的 提议 方案 ,可 以 提议 两 次 随机 选择 的 演 
能 导致 一 次 切换 ) 或 者 随机 选择 的 演员 声望 、 随 机 选择 的 ! 








提议 方案 概述 


Figaro 提供 了 一 些 定义 提议 方案 的 
国 在 多 个 备 选 方案 中 选择 









































局 / 三 | 
, 影 质 量 
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出 的 获奖 情况 (可 

















语言 。 除 了 默认 方案 之 外 ， 您 还 可 以 : 








概率 。DisjointScheme(probability; -> schemeFunction, ..…. 


可 以 实现 这 一 功 


2 
能 。 每 个 


方案 函数 都 没有 参数 , 返回 
ProposalScheme(actors(random.nextInt(numActors)).famous) 是 方案 函数 的 一 个 例子 


























假定 您 想 要 在 多 个 提议 方案 中 随机 选择 ,每 种 方案 有 不 同 的 
, probability,-> SchemeFunctionn) 

















一 个 提议 方案 。 在 演员 和 








电影 示例 中 , () => 








Ey 








DisjointScheme 以 相应 的 概率 选择 其 中 一 个 方案 函数 , 然后 应 用 方案 函数 得 出 所 要 使 用 的 提议 


方案 。 


国 依次 提议 多 个 元 素 一 一 ProposalScheme(element， 





大 | 








到 elementno 
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为 您 通常 不 希望 在 每 次 MH 迭代 中 提 昌 








函数 的 结果 使 用 ， 例 如 在 Disjo 
国 从 一 个 元 素 开始 , 根据 该 元 素 值 决定 如 何 继 续 
根据 第 一 个 元 素 选择 的 值 决定 如 何 继续 提议 。 在 演 








量 就 是 一 个 例子 。TypedScheme 用 了 


议 元 素 的 函数 ， 








相同 


























intScheme 中 


...，Element,) 将 依次 提议 element; 


的 元 素 , 这 种 提议 方案 一 般 作为 方 




































































类 型 是 () 三 > 














Element[T]， 
































使 用 的 函数 。 在 我 们 的 例子 中 就 是 这 么 做 的 。 
时 候 ， 您 希望 提议 一 个 元 素 ， 然 后 
员 和 电影 获奖 时 提议 演员 的 声望 和 电影 的 质 
这 类 情况 ， 它 有 两 个 参数 。 第 一 个 参数 是 返回 第 一 个 提 
其 中 的 丁 是 第 一 个 元 素 的 值 类 型 。TypedScheme 
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的 第 二 个 参数 类 型 为 => Option[ProposalScheme]。 也 就 是 说 ， 该 函数 取得 第 一 个 元 素 的 生 
成 值 ( 类 型 为 T ), 根据 该 值 返回 None( 表示 提议 应 该 停止 ) 或 者 返回 Some[proposalSchemel] 
( 表示 提议 应 该 用 给 定 的 proposalScheme 继续 ) 。 例 如 ， 考 虑 如 下 代码 























val appearance = appearances (random.nextInt (numAppearances)) 
TypedScheme ( 
() => appearance.award, 
(b: Boolean) => 
if (b) Some (ProposalScheme (appearance.actor.fame, 
appearance.movie.quality)) 
else None) 














文 个 提议 方案 随机 选择 一 次 演出 ， 首 先 提议 该 演出 的 获奖 情况 。 如 果 appearance.award 
的 新 值 为 true， 则 继续 依次 提议 appearance.actor.fame 和 appearance.movie.quality， 否 则 
止 提议 。 
UntypedScheme 提议 方案 中 如 何 继续 的 决定 不 依赖 于 为 所 提议 的 第 一 个 元 素 选择 的 值 。 
遗憾 的 是 ， 我 们 的 演员 与 电影 示例 仍然 有 一 个 技术 上 的 障碍 ， 这 是 因为 Figaro MH 
算法 的 工作 方式 。 我 们 再 来 看 看 award 属性 的 定义 : 


class Appearance (val actor: Actor, val movie: Movie) { 
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val award: Element [Boolean] = 
CPD (movie.quality, actor.famous, 

('low, false) -> Flip(0.001), 
(iow truey >» PLIptD OTL}; 
('medium, false) -> Flip(0.01), 
('medium, true) -> Flip(0.05), 
('high, false) -> Flip(0.05), 
('high, true) -> Flip(0.2)) 























问题 是 ， 在 这 个 程序 中 Appearance 的 award 属性 定义 为 一 个 CPD。CPD 是 一 个 确 
定性 的 元 素 ; 虽然 CPD 中 有 一 些 Flip， 但 是 如 果 这 些 Flip 元 素 的 值 是 固定 的 ，CPD 的 
值 就 是 完全 确定 的 。CPD 内 的 Flip 是 CPD 元 素 的 参数 。 提 议 一 个 元 素 时 ， 参 数 保持 固 
定 ， 对 元 素 值 进行 抽样 。 因 为 CPD 是 确定 的 ， 在 Flip 值 给 定 的 情况 下 ， 抽 样 的 始终 是 
相同 值 。 结 果 是 ， 您 无 法 提议 award 值 的 切换 。 
上 面 的 解释 有 些 技术 性 ， 本 质 就 是 : 总 是 尝试 提议 非 确 定性 元 素 。 除 了 Constant 之 
外 ,原子 元 素 通常 是 非 确 定性 元 素 ， 而 复合 元 素 通 常 是 确定 性 元 素 。CPD 是 一 个 确定 性 
的 复合 元 素 。 有 少数 几 个 复合 元 素 是 非 确 定性 的 ， 复合 Flip、 复 合 Select 和 复合 Dist。 
但 是 ， 其 他 复合 元 素 如 复合 Normal 是 由 Chain 定义 的 确定 性 元 素 。 

如 何 使 award 成 为 非 确 定性 元 素 ? 窑 门 就 是 将 程序 转换 为 一 个 award 不 确定 的 程序 。 
这 可 以 通过 如 下 定义 实现 : 
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class Appearance (val actor: Actor, val movie: Movie) { 


























def getProb(quality: Symbol, famous: Boolean): Double = 
(quality, famous) match { 
Case (LO0wF false). =>- 0.001 根据 电影 质量 
Case ("Low truey => QQ 和 演员 声望 确 
case ('medium, false) => 0.01 和 
case ('medium, true) => 0.05 定 所 用 概率 的 
case ('high, false) => 0.05 函数 
case ('high, true) => 0.2 
} 
val probability: Element [Double] = 
Apply (movie.quality, actor.famous, 表示 所 使 用 概率 的 
(q: Symbol, f: Boolean) => getProbl(q, f£)) 元 素 
val award: Element [Boolean] = 
Flip (probability) 以 对 应 的 概率 ， 掷 
: 硬币 选择 award 值 














很 容易 看 出 ， 这 个 定义 与 award 的 原始 定义 等 价 。 在 原始 定义 中 ，CPD 的 每 个 子 句 
都 以 某 种 概率 生成 一 个 Flip。 在 新 定义 中 也 使 用 Flip， 其 概率 等 于 每 种 情况 的 概率 。 这 
个 Hip 是 一 个 复合 Flip, 正如 上 面 所 讲述 的 , 它 是 一 个 非 确 定性 元 素 。 所 以 提议 这 个 Flip 
可 能 造成 值 的 切换 ， 使 得 MH 可 以 很 好 地 工作 于 这 个 例子 。 

























































































11.4.2 ”避免 硬 条 件 


即使 有 了 上 一 小 节 中 介绍 的 自 定义 提议 方案 和 程序 变化 ,我 们 的 例子 仍然 不 能 正确 
地 工作 。 问 题 如 下 : 假定 您 从 4 部 电影 得 奖 的 状态 开始 。 在 任何 一 步 中 ， 利 用 我 们 的 自 
定义 提议 方案 ， 您 所 能 改变 的 得 奖 情 况 最 多 为 2 个 。 在 这 一 步 结束 时 至 少 有 两 部 电影 得 
奖 ， 提 议 也 不 能 满足 唯一 获奖 者 的 条 件 ， 将 被 自动 拒绝 。 因 此 ， 您 永远 无 法 转移 到 满足 
该 条 件 的 状态 。 

问题 的 症结 是 ， 提 议 必须 绝对 满足 一 个 硬 条 件 才能 被 接受 。 在 11.2.3 小 节 中 已 经 看 
到 ， 硬 条 件 是 重要 性 抽样 的 一 个 问题 。 对 MCMC 也 是 如 此 。 由 于 硬 条 件 的 存在 ， 找 出 
在 第 一 次 就 满足 该 条 件 的 任何 状态 都 很 难 。 而 且 ， 在 算法 找到 一 个 这 类 状态 之 后 ， 难 以 
转移 到 其 他 类 似 的 状态 。 

解决 方案 是 用 软 约 束 替 代 硬 条 件 。 理想 状况 下 , 约束 将 引导 算法 转移 到 最 佳 的 状态 ， 
在 我 们 的 例子 中 可 以 使 用 如 下 约束 : 


def uniqueAwardConstraint (awards: List[Boolean]) = { 





















































































































































































































































Val n = awards.count (b => b) 
if (n == 0) 0.0 else 1.0 / (n * n) 
} 























这 个 约束 计算 award 值 为 true 的 个 数 ， 并 将 其 赋值 给 变量 n。 然 后 根据 n 返回 一 个 
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得 分 。 如 果 n 非 零 ， 得 分 为 /n>?。 如 果 n=1， 得 分 为 1， 得 分 随 着 n 的 增加 而 快速 减 小 。 
同时 ， 如 果 n 为 0， 则 得 分 为 0， 根 据 这 一 约束 ， 这 种 状态 不 可 能 出 现 。 
这 个 约束 有 什么 效果 ?让 我 们 来 考虑 一 下 起 始 状态 。 
国 ”如果 从 得 奖 数 为 0 的 状态 开始 ,至 少 有 一 次 演出 得 奖 的 任何 新 状态 都 将 被 接受 。 
国 。 如 果 从 有 一 次 演出 得 奖 的 状态 开始 , 算法 通常 只 接受 有 一 次 演出 得 奖 的 新 状态 ， 
有 时 《概率 为 1/4) 接受 有 两 次 演出 得 奖 的 新 状态 ， 接 受 三 次 演出 得 奖 的 新 状 
态 的 概率 更 低 (1/9)。 
国 ”如果 从 超过 一 次 演出 得 奖 的 状态 开始 ， 算 法 始终 接受 得 奖 演出 数 较 少 的 状态 ， 
为 那样 约束 值 较 高 。 算 法 侦 尔 也 会 接受 具有 更 高 获奖 演出 数 的 状态 ， 但 是 i 
常 来 说 其 趋势 是 转移 到 只 有 一 次 演出 获奖 的 “良好 ”状态 。 
您 可 以 将 这 个 约束 视 为 “润滑 剂 ” 有 助 于 马尔 科 夫 链 状 态 间 的 流转 ， 使 其 趋向 于 
有 一 次 演出 获奖 的 “良好 ”状态 。 没 有 这 一 润滑 剂 ， 链 将 变 得 僵化 ， 无 法 正常 移动 。 将 
约束 作为 润滑 剂 是 常用 的 技术 。 它 不 仅 有 助 于 从 一 开始 就 达到 高 概率 状态 ， 还 可 以 在 找 
到 高 概率 状态 之 后 自由 地 在 这 些 状 态 中 移动 。 
您 可 以 在 本 书 代码 库 中 找到 本 例 的 代码 。 如 本 例 所 示 ， 您 有 时 候 需 要 进行 相当 漫长 
的 工作 ， 包 括 自 定义 提议 、 程 序 变 换 、 调 整 约束 ， 才 能 使 MCMC 正常 工作 。 如 果 幸 运 ， 
默认 的 提议 方案 就 是 可 行 的 ， 但 是 如 果 事 与 愿 违 ， 使 MCMC 算法 正常 工作 的 难度 显然 
高 于 其 他 算法 。 这 是 我 将 其 作为 最 后 手段 的 主要 原因 。 但 是 ， 如 果 您 愿意 投入 精力 ， 回 
报 也 很 可 观 ， 您 所 得 到 的 结果 是 其 他 任何 算法 所 无 法 得 到 的 。 
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11.4.3 ”MH 的 应 用 


MH 广泛 适用 于 各 类 问题 ， 但 是 正如 前 面 所 讨论 的 ， 将 其 应 用 到 给 定 的 问题 上 可 能 
需要 花费 一 定 的 精力 。 每 个 应 用 都 是 独一无二 的 ， 遗 憾 的 是 ， 我 不 知道 任何 能 够 使 特定 
应 用 运转 良好 的 “魔法 公式 ”。 可 以 说 ， 最 适合 于 MH 的 应 用 场景 是 : 观测 值 是 变量 间 
许多 小 的 相互 作用 的 结果 ， 而 不 依赖 于 许多 变量 的 组 合 。 在 前 一 小 节 中 ， 您 看 到 唯一 获 
奖 者 条 件 依赖 于 获奖 变量 的 组 合 ， 需 要 很 大 的 工作 量 才 能 确定 使 用 的 正确 组 合 。 如 果 不 
必 如 此 ，MH 工作 起 来 就 容易 多 了 。 
回想 11.2.4 小 节 中 的 足球 赛 预 测 模 型 。 在 那 一 小 节 中 我 曾经 说 过 ， 重 要 性 抽样 在 唯 
一 的 观测 值 是 联赛 排名 表 时 可 以 工作 得 很 好 ,但 是 如 果 观 察 到 所 有 比赛 的 结果 ， 它 就 
能 为 力 了 ， 此 时 MH 可 能 更 好 。 实 际 上 ，MH 是 这 类 问题 的 现成 解决 方案 。 模 型 中 的 
机 变量 有 哪些 ? 球员 的 能 力 和 球 队 的 其 他 特征 以 及 所 有 比赛 的 结果 。 任何 变量 都 没有 
制 所 有 其 他 变量 ， 比 赛 的 结果 以 累积 方式 依赖 于 其 他 变量 。 例如， 不 管 其 他 变量 的 值 
多 少 ， 如 果 球 队 的 中 锋 很 出 色 ， 都 可 能 使 他 们 赢得 更 多 比赛 。 默 认 的 提议 方案 可 能 和 
合 于 这 个 问题 。 
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图 像 与 视频 分 析 是 MH 的 实际 应 用 领域 之 一 。 如 果 您 想 要 识别 图 像 中 的 一 个 物体 ， 
最 好 使 用 非 概率 方法 ， 如 神经 网 络 。 但 是 如 果 想 要 更 深入 地 解读 图 像 或 者 视频 〈 例 如 ， 
识别 物体 或 者 活动 之 间 的 关系 )， 概 率 模型 是 有 好 处 的 ， 可 以 提供 用 于 解释 图 像 的 知识 。 
例如 ， 考 虑 球员 射门 、 守 门 员 扑救 的 动作 序列 。 动 态 概 率 模型 可 以 编码 这 种 事件 序列 的 
概率 。 序 列 中 的 每 个 特定 事件 将 产生 作为 证 据 的 图 像 或 者 视频 属性 。 概 率 推理 算法 可 以 
根据 证 据 推断 可 能 的 动作 序列 。 
这 类 任务 通常 使 用 MCMC 算法 ,原因 多 种 多 样 。 首 先 ， 动作 序列 的 结构 灵活 多 变 ， 
难以 用 少数 随机 变量 捕捉 ， 因 此 因子 分 解 算法 不 太 符 合 要 求 。 其 次 ， 图 像 或 者 视频 中 表 
示 亮 度 和 颜色 的 变量 有 许多 可 能 值 ， 这 同样 是 因子 分 解 算 法 难以 解决 的 。 最后， 重要 性 
抽样 也 不 适合 ， 因 为 组 成 图 像 或 者 视频 的 证 据 概 率 很 低 。 

MH 在 这 种 问题 上 的 实际 应 用 可 以 将 动作 序列 表示 为 提议 目的 的 一 个 单位 。 例如 ， 
段 定 当 前 动作 序列 为 中 锋 将 球 射 向 球门 左 侧 ， 守 门 员 向 自己 的 右 侧 ( 中 锋 的 左 侧 》 鱼 
跃 扑 救 。 如 果 接 着 提议 中 锋 向 右 射门 ， 守 门 员 继续 向 自己 的 右 侧 扑救 就 没有 意义 了 。 
因此 ， 您 需要 一 个 将 守门 员 移 向 左 侧 的 提议 方案 。 精 心地 制定 提议 方案 ，MH 就 可 以 
有 效 地 工作 。 
MH 在 科学 上 的 应 用 : MH 算法 在 生物 和 物理 等 科学 上 特别 受 欢 迎 。 例 如 ， 在 生物 学 中 ， 概 率 
模型 用 于 捕捉 生物 体 基 因 型 之 间 的 关系 , 基因 型 代表 生物 体 的 遗传 物质 以 及 表现 这 些 基 
因 如 何在 生物 体 中 产生 特质 的 表 型 。 找 出 何 种 基因 导致 菜 种 有 趣 特质 , 是 一 种 有 趣 的 查 
询 。 令 这 个 问题 复杂 化 的 是 ， 我 们 不 总 能 知道 特定 生物 体 所 具备 的 基因 版 本 ,但 是 相同 
染色 体 上 相近 的 基因 是 相互 关联 的 。 不 同 的 基因 版 本 和 特质 可 以 用 随机 变量 表示 ， 从 而 
得 出 基因 型 和 表 型 上 的 一 个 联合 概率 模型 。 有 了 这 个 模型 ,就 可 以 使 用 MH 学 习 基 因 和 
特质 之 间 的 一 般 关 系 ， 推 断 指定 个 体 具 备 的 基因 版 本 。 


在 前 两 章 中 ， 您 已 经 学 习 了 许多 关于 概率 编程 中 推理 算法 的 知识 。 我 将 重点 放 在 计 
算 给 定 证 据 下 查询 变量 后 验 概率 分 布 的 问题 上 , 但 是 其 他 查询 也 很 有 用 ， 如 找 出 变量 
最 可 能 值 ， 或 者 计算 证 据 的 概率 。 这 些 任务 各 自 需 要 不 同 的 算法 ， 它 们 都 是 这 两 章 中 您 
所 看 到 的 算法 的 变种 。 从 数据 中 学 习 概 率 程序 参数 的 能 力也 很 重要 ， 下 一 章 将 介绍 如 何 
完成 上 述 的 任务 。 




























































































































































































































































































































































































































































































































































































































































































11.5 小 结 


量 ”抽样 算法 生成 从 可 能 世界 的 概率 分 布 中 提取 的 状态 ， 观 察 样本 中 取 值 的 频 度 以 
回答 查询 。 
国平 均 起 来 ， 样 本 代表 的 分 布 将 等 于 真实 分 布 ， 但 是 任何 给 定 的 样本 分 布 可 能 挟 
真实 分 布 存在 一 定 的 差异 。 
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量 ”生成 的 样本 越 多 ， 可 以 预期 抽样 分 布 越 接近 于 真实 分 布 ， 查 询 的 答案 也 就 越 准 

确 。 遗 憾 的 是 ， 获 得 您 所 需要 的 近似 答案 可 能 需要 许多 样本 。 

抽样 是 一 种 简单 的 抽样 算法 ， 从 程序 定义 的 先 验 概率 分 布 中 生成 样本 ， 并 

不 满足 条 件 的 所 有 样本 。 它 不 能 处 理 约束 ， 不 适合 条 件 众多 的 情况 。 

国 重要 性 抽样 使 用 加 权 样 本 考虑 约束 ， 尽 可 能 避免 拒绝 ， 性 能 优 于 拒绝 抽样 。 但 
是 对 于 具有 难以 满足 的 条 件 或 者 约束 值 较 小 的 情况 ， 由 于 有 效 样本 数 较 小 ， 习 
要 性 抽样 可 能 需要 许多 样本 。 

国 ”马尔 科 夫 链 蒙特 卡 洛 (MCMC) 算法 在 进行 中 重用 其 工作 成 果 。 它 随机 地 搜索 
状态 空间 的 高 概率 区 域 ， 找 到 该 区 域 之 后 倾向 于 在 其 中 移动 。 在 具有 难以 满足 
的 条 件 或 者 约束 值 较 小 的 情况 下 ，MCMC 的 性 能 优 于 重要 性 抽样 。 

加 ”MCMC 可 能 需要 大 量 样本 ， 难 以 理解 和 控制 。 在 真实 问题 上 使 用 MCMC 往往 
需要 额外 的 工作 量 ， 例 如 自 定义 提议 和 调整 约束 。 
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练习 


在 www.manning.com/books/practical-probabilistic-programming 上 可 以 找到 部 分 练习 
的 解答 。 
1. 对 于 如 下 程序 : 


val x = Flip(0.8) 
val y = Flip(0.6) 
val z = If(x === y, Flip(0.9), Flip(0.1)) 
z.observe (false) 


a) 使 用 变量 消除 法 ， 计 算 给 定 z 观测 值 的 情况 下 ，y 为 真 的 准确 后 验 概率 。 

b) 使 用 1000 个 、2000 个 …10000 个 样本 , 运行 重要 性 抽样 。 对 于 每 种 数量 的 样本 ， 
试验 100 次 。 计 算 给 定 样 本 数量 的 重要 性 抽样 误差 均 方 根 ， 定 义 如 下 : 

i. 对 于 每 次 试验 , 计量 重要 性 抽样 估算 的 概率 和 变量 消除 法 计算 的 准确 概率 之 间 的 
差 值 ， 这 就 是 误差 。 

ii， 计算 每 次 试验 的 误差 的 平方 。 

十 .计算 所 有 误差 平方 的 均值 。 

iv. 取 均 值 的 平方 根 。 这 就 是 误差 的 均 方 根 ， 这 是 计量 推理 算法 误差 的 常用 手段 。 

c) 绘制 均 方 根 误差 的 图 表 。 注 意 到 什么 趋势 了 吗 ? 

2. 用 Metropolis-Hastings 的 默认 提议 方案 重复 练习 1。 这 次 ,我 们 使 用 10000、20000… 
100000 个 样本 。 

3. 现在 ， 我 们 对 程序 略 加 修改 ， 使 数值 参数 更 加 极端 : 


val x = Flip(0.999) 
val y = Flip(0.99) 
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val z = If(x === y, Flip(0.9999), Flip(0.0001)) 
z.observe (false) 


a) 运行 变量 消除 法 获得 y 的 准确 后 验 概率 。 

b) 运行 100 万 个 样本 的 重要 性 抽样 算法 。 

c) 在 这 个 程序 中 ， 证 据 的 概率 很 低 ， 但 是 您 应 该 发 现 重 要 性 抽样 在 此 很 精确 。 您 
认为 这 是 什么 原因 ? 

4. 用 默认 提议 方案 和 1000 万 个 样本 在 同一 个 程序 上 运行 Metropolis-Hastings 算法 。 
您 应 该 发 现 结果 很 不 好 。( 这 可 能 不 是 每 次 都 发 生 ， 但 是 在 多 次 运行 之 后 ， 结 果 趋 向 于 
不 好 ) 您 认为 为 什么 这 个 问题 难以 用 Metropolis-Hastings 算法 解决 ? 

5. 尝试 为 Metropolis-Hastings 编写 一 个 自 定义 提议 方案 : 

a) 因为 我 们 将 提议 z 的 定义 中 的 Flip 元 素 ， 所 以 必须 使 它们 成 为 可 以 引用 的 单独 
变量 。 将 Flip(0.9999) 转 换 成 变量 z1, Flip(0.0001) 转 换 成 变量 z2, 在 z 的 定义 中 使 用 这 些 
新 变量 。 

b) 创建 一 个 自 定义 提议 方案 ， 表 现 如 下 : 

i.， 提议 zl 的 概率 为 0.1。 

ii， 提议 z2 的 概率 为 0.1。 

诈 ， 同 时 提议 x 和 y 的 概率 为 0.8。 

c) 用 这 个 提议 方案 运行 Metropolis-Hastings 算法 ， 结 果 应 该 更 好 。 您 认为 这 是 什么 
原因 ? 

6. 第 6 章 包含 了 一 个 练习 ， 编 写 概率 程序 以 表现 扫雷 游戏 。 尝 试用 这 个 程序 计算 
一 个 方块 中 包含 地 雷 的 概率 。 试 验 不 同 的 算法 。 
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本 章 介 绍 如 下 内 容 : 

图 ”如何 查 询 多 变量 联合 概率 

回 ”如 何 计算 模型 中 所 有 变量 的 最 可 能 值 
四 ”如何 计算 观察 到 的 证 据 的 概率 


























迄今 为 目 ， 我 们 已 经 研究 了 回答 诸如 “已 知 打印 机 打印 不 正确 的 情况 下 ， 打 印 机 
源 开关 关闭 的 概率 有 多 大 ? ”或 者 “在 技艺 和 电影 质量 已 知 的 情况 下 ， 赢 得 奥斯卡 奖 上 
概率 有 多 大 ? ”之 类 问题 的 方法 。 所 有 这 些 问题 都 可 以 总 结 为 根据 证 据 回 答 关 于 单一 变 
量 上 后 验 概率 的 查询 。 使 用 概率 编程 还 可 以 执行 各 种 各 样 的 其 他 推理 任务 ， 包 括 : 

图 ”计算 多 变量 上 的 联合 概率 分 布 。 
根据 证 据 计 算 变 量 的 最 可 能 值 。 
计算 证 据 的 概率 (由 模型 生成 的 可 能 世界 满足 证 据 的 概率 )。 
随时 监控 动态 系统 状态 。 
学 习 模 型 参数 用 于 之 后 的 推理 。 

本 章 展 示 执 行 前 三 种 任务 的 方法 。 剩 下 的 两 种 任务 将 在 下 一 章 中 介绍 。 对 每 种 任务 ， 
我 描述 其 定义 和 用 途 ， 提 供 示例 ， 然 后 说 明 算 法 的 工作 方式 和 在 Figaro 中 的 执行 方法 。 
幸运 的 是 ， 前 几 章 中 学 到 的 算法 原理 可 以 应 用 到 这 些 任务 上 ， 所 以 本 章 中 的 材料 对 您 来 
说 应 该 很 熟悉 ， 并 增加 了 一 些 有 趣 的 新 思路 。 

为 了 本 章 的 学 习 ， 您 应 该 对 Figaro 建 模 有 基本 的 了 解 , 但 是 通常 不 需要 使 用 高 级 的 
技术 。 因 为 本 章 中 的 算法 是 在 第 10 章 和 第 11 章 的 基础 上 构建 的 ， 您 应 该 对 这 些 章节 有 
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抒 
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12.1 计算 联合 分 布 

















很 好 的 理解 。 





-Fd 


12.1 计算 联合 分 




















迄今 为 止 , 您 已 经 看 到 了 计算 单 变量 概率 分 布 的 各 种 算法 。 这 种 分 布 被 称 作 该 变量 














上 的 边缘 分 布 。 在 调用 各 种 算法 〈 如 变量 消除 法 或 者 重要 性 
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| 





抽样 ) 时 ， 您 提供 一 个 查询 


























目标 列表 。 例 如 ， 假 定 您 有 一 个 预 


Ce 





Ee en nid 








。 您 将 提供 产品 线 的 











销售 量 元 素 ， 作 为 查询 目标 。 然后， 您 可 以 查询 给 定 产品 线 销售 量 超 出 某 一 水 平 或 者 符 








合 产品 线 预 期 销售 量 水 平 的 概率 。 


























但 是 , 如果 您 要 查询 多 个 变量 的 联合 分 布 该 怎么 做 ? 为 什么 您 想 要 这 么 做 ? 因为 联 
合 分 布 包含 单个 边缘 分 布 所 没有 的 信息 。 例 如 ， 您 可 能 对 两 个 产品 线 的 销售 量 同时 走低 
的 概率 感 兴趣 ， 因 为 这 对 您 的 业务 特别 不 好 。 下 面 是 一 些 联合 分 布 的 可 能 







































































性 。 


量 。 两 个 产品 线 的 销售 量 相互 独立 ， 一 个 产品 线 销 售 量 的 高 低 对 其 他 产品 线 的 销售 


量 没有 影响 。 






















































































目 关 ， 因 此 一 个 产品 线 销 售 量 低 ， 另 一 个 产品 线 的 销售 量 
下 








里 ”两 个 产品 线 的 销售 量 本 
也 很 可 能 较 低 。 这 表明 了 一 种 高 风险 的 情况 。 

回 ”两 个 产品 线 的 销售 量 负 相 关 ， 因 此 一 个 产品 线 的 销售 量 低 ， 另 
售 量 很 可 能 高 。 这 是 
走低 。 














仅仅 知道 单独 的 边缘 分 布 ， 无 法 知道 将 会 出 现 上 述 的 哪 一 种 情况 。 那 





联合 分 布 呢 ? 











个 产品 线 的 销 











风险 较 小 的 情况 ， 因 为 两 个 产品 线 的 销售 量 不 太 可 能 同时 


么 ， 如 何 查 询 















































联合 分 布 中 各 个 元 素 的 共同 表现 。 然 后 ， 可 以 使 用 前 几 间 


















































Figaro 没有 计算 联合 分 布 的 专用 算法 ， 您 必须 创建 一 个 特殊 元 素 以 捕 
介绍 的 任何 一 利 


捉 想 要 查询 的 









































创建 这 个 特殊 元 素 ， 就 需要 使 用 Figaro 的 元 组 构造 程序 

















^ 运 算 符 。 


推理 算法 。 要 











例如 , 假定 您 有 一 个 销售 量 元 素 的 数组 。 下 面 的 代码 创建 前 两 个 销售 量 元 素 的 配对 ; 











val salesPair = ^^(sales (0), sales(1)) 


如 下 代码 创建 销售 量 元 素 的 四 元 组 : 














val sales4Tuple = ^^(sales(0), sales(1), sales(2), sales (3)) 


注意 : 元 组 构造 程序 从 定义 为 最 多 5 个 参数 。 如 果 需 要 超出 5 个 ， 可 以 使 用 谋 套 元 组 ， 如 


^(^ 人 (sales(0), sales(1), sales(2)), ^^(sales(3), sales(4), sales(5)))。 




















9 





之 后 ， 您 可 以 将 这 些 元 组 作为 取 值 是 元 组 的 单个 元 素 进 行 查询 ， 例 如 : 





VariableElimination.probability(salesPair, 





(pair: (Double, Double)) => pair._ 1 < 100 && pair. 2 < 100) 





对 于 因子 分 解 算法 ,创建 元 组 并 进行 有 关 的 推理 是 需要 








付出 代价 的 。 





创建 元 组 等 同 
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2 


于 创建 一 个 








在 元 组 所 有 成 分 之 上 的 
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sales(1)、sales(2) 和 sales(3) 之 上 的 
有 问题 。 但 是 如 果 没 有 这 样 的 
算法 来 说 ， 这 不 是 问题 。 

















对 于 抽检 


大 





本 。 





大 














大 





ee 


























大 





























个 组 合 都 被 转换 为 元 组 的 一 个 





高 ， 可 以 尝试 
一 般 来 说 ， 
的 联合 分 布 不 











样 算 法 。 











仅 难 以 六 











可 以 尝试 
算 总 销售 量 上 











val allSales = Container (sales:_*) 网 


下 


摘要 











秆 着 加 入 元 素数 量 的 增加 ， 元 组 可 能 值 的 数量 呈 指 数 式 增长 。 许 多 变量 
| 算 , 也 难以 解读 ,如果 您 发 现 自己 想 要 查询 许多 变量 的 联合 分 布 ， 














统计 代 





。 例 如 ， 与 其 








您 只 是 创建 元 组 








大 











此 ， 对 于 sales4Tuple， 您 有 一 个 sales(0)、 
您 可 能 已 经 有 了 这 样 的 











子 ， 在 这 种 情况 下 没 





























子 ， 创 建 这 个 因子 就 会 显著 增 大 算法 的 代价 。 
每 个 成 分 的 选择 值 ， 成 分 的 每 
值 。 所 以 如 果 发 现 因子 分 解 算法 在 计算 联合 概率 时 代价 过 


















































的 分 布 呢 ? 这 很 容易 用 











val totalSales = 


allSales.foldLeft ((x: Int, y: Int) 
printin(Importance.probability(totalSales, 
=> i > 1000)) 


注意 :您 可 以 在 本 书 代码 库 


(i: Int) 





计算 最 可 能 的 解释 
有 时 候 ， 您 想 要 知道 的 不 是 结果 上 的 概率 分 布 ， 而 是 哪 一 种 结果 最 有 可 能 发 生 。 考 


虑 打印 机 


目标 是 找 出 系统 最 有 可 能 的 状态 (导致 观察 到 










































































:_* 标 记 法 将 销售 量 数 组 





造 程序 的 可 变 参 数列 表 


=> x + Y) 


























计算 许多 产品 线 销售 量 的 联合 分 布 ， 为 什么 不 计 
Figaro 集合 实现 。 例 如 : 


[转换 为 Container 构 


foldLeft 方法 加 总 所 有 销售 量 元 


素 ， 得 到 总 销售 量 元 素 


诊断 问题 ， 您 观察 打印 机 的 症状 ， 例 如 ， 打 印 缓慢 。 这 利 








找到 说 明 本 节 概 念 的 完整 代码 示例 , 对 于 本 章 的 所 有 小 节 都 是 如 此 。 
































情况 下 ， 概 率 推理 的 
的 症状 的 打印 机 、 软 件 、 网 络 及 用 户 状态 )。 








苗 述 的 如 下 过 程 。 




















确定 最 可 能 状态 ， 可 以 告诉 您 所 见 问 题 的 最 可 能 根源 ， 从 而 加 以 修复 。 

告诉 您 模型 中 各 变量 最 可 能 状态 的 查询 称 作 最 可 能 解释 (MPE)。 当 您 进行 诊断 时 ， 希 
望 得 到 总 体 最 佳 的 假设 ， 以 便 知道 如 何 修复 问题 。 您 通常 运行 图 12-1 : 

1. 观察 初始 症状 ， 作 为 模型 中 的 证 据 。 例 如 ， 打 印 机 月 




















”的 证 据 。 


站 


2. 计算 MPE 确定 系统 的 最 可 能 状态 。 医 
是 其 他 打印 效果 不 佳 的 可 能 根源 都 没有 出 现 。 所 以 ， 没 有 打印 结果 的 最 可 


日 十 


按钮 关闭 ， 























能 原因 是 打印 机 电源 关闭 。 





3. 检查 第 2 步 中 识别 的 故障 是 不 是 真正 的 故障 ， 








有 户 可 能 投诉 没有 任何 打印 
结果 ， 所 以 在 打印 机 网 络 中 观察 到 Print Result Summary (打印 结果 摘要 ) 变量 “无 结 











区 



































用 户 可 以 检查 














BE 源 按钮 是 否 打开 。 




















显示 ， 在 最 可 能 的 解释 ! 


并 尝试 修复 。 在 我 们 的 例子 中 ， 


| 











， 打 印 机 电源 








































False 





Zero 


Paper Jam Indicator On 
True Up 
User Command Correct 


Number of Printed Pages 
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Paper Flow 







Printer Power Button On 





Toner Low Indicator On 


False 










Correct 


Software State 


pe 


Printer State 


Out 


Good Print Quality 


False 






Evidence: None 


Print Result Summary 


None 


Evidence: True 


False 





图 12-1 使 用 MPE 进行 诊 





Paper Jam Indicator On 
True 
User Command Correct 


Number of Printed Pages CPrints Quicky > 
Zero 


Printer Power Button On 


True 

















Down Correct 


Software State Printer State 


Good 


True 






Print Result Summary 


None 


断 。 上 半 部 分 展示 了 第 5 章 中 打印 机 网 络 的 第 一 次 推理 。 用 户 投 诉 称 没有 任 


Evidence: None 








何 打印 结果 ， 所 以 PrintResultSummary 变量 展示 的 证 据 为 “无 结果 ”。 运 行 MPE 查询 ， 图 中 展示 了 每 
个 变量 的 最 可 能 值 ， 根 据 MPE ， 最 可 能 的 故障 是 打印 机 电源 按钮 关闭 。 执 行 一 次 测试 以 观察 按钮 是 开 还 
是 关 ， 发 现 电源 按钮 打开 。 所 以 Printer Power Button On 变量 的 证 据 为 “true”。 图 中 下 半 部 分 显示 了 利 
用 这 一 附加 证 据 进行 的 MPE 查询 。 第 一 次 查询 之 后 发 生变 化 的 最 可 能 值 用 粗 体 显示 。 现 在 ， 最 可 能 的 故 














障 是 网 络 状态 为 “中 断 ” 
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电源 按钮 不 











4. 检查 问题 是 否 已 经 修复 。 如 果 修 复 ， 任 务 完 成 。 在 我 们 的 例子 : 
是 问题 所 在 ， 所 以 打印 机 问题 尚未 解决 。 

5. 如 果 不 能 解决 问题 ， 增 加 附加 证 据 并 返回 第 2 步 。 插 图 中 的 下 半 部 分 显示 增加 
的 证 据 一 一 Printer Power Button On 〈 打 印 机 电源 按钮 开启 ) 变量 值 为 tue， 以 及 由 此 产 
生 的 MPE。 在 这 个 MPE 中 ， 最 有 可 能 的 故障 是 网 络 中 断 。 用 户 可 以 检查 该 故障 并 尝试 
更 正 ， 在 我 们 的 例子 中 ， 用 户 发 现 网 络 电缆 被 拔 出 ， 将 其 插 回 之 后 问题 解决 。 

再 举 个 例子 。 假定 您 有 一 个 降 质 图 像 , 希望 将 其 补 全 。 可 以 在 观察 到 的 像素 基础 上 ， 
使 用 概率 推理 恢复 真实 图 像 。 您 有 几 种 选择 。 
国 ”计算 单个 像素 的 边缘 概率 分 布 。 尽 管 这 在 计算 上 是 可 行 的 ， 但 是 对 于 恢复 整 

图 像 并 不 理想 ， 因 为 只 能 给 出 每 个 像素 的 单独 分 布 ， 不 能 告诉 您 哪 一 个 像素 但 

更 有 可 能 出 现 。 您 对 某 些 像素 的 选择 可 能 影响 对 其 他 像素 的 选择 ， 这 并 不 能 从 
边缘 分 布 中 捕捉 。 

国 。 计算 图 像 中 所 有 像素 的 联合 概率 分 布 。 遗 憾 的 是 ， 这 在 计算 上 不 可 行 。 所 有 像 
素 的 可 能 值 数量 与 像素 数 成 指数 关系 ， 可 能 是 相当 大 的 数字 。 

加 ”计算 图 像 中 所 有 像素 的 最 可 能 联合 值 。 这 个 值 (MPE) 是 所 有 像素 加 在 一 起 的 

最 可 能 值 , 而 不 是 单个 像素 最 可 能 值 的 组 合 。 这 种 方法 的 好 处 是 从 计算 上 可 行 ， 
寻 为 您 只 计算 一 个 值 。 此 外 ，MPE 捕捉 像素 之 间 的 相互 关系 ， 这 一 点 和 单独 的 
边缘 分 布 不 同 。 
表 12-1 展示 了 MPE 的 例子 。 例 中 有 两 个 像素 , 其 状态 可 能 为 On( 开 ) 或 者 Off( 为 。 
表 中 展示 了 2 个 像素 的 4 种 可 能 世界 以 及 相关 的 概率 。 如 果 只 考虑 像素 1， 状 态 为 Off 
的 可 能 世界 概率 为 0.65，On 的 可 能 世界 概率 为 0.35。 所 以 像素 1 的 最 可 能 值 是 Off。 类 
似 地 , 像素 2 的 最 可 能 值 为 Off。 但 是 像素 1 为 Off、 像素 2 为 On 的 可 能 世界 概率 为 0.45， 
这 是 所 有 可 能 世界 中 概率 最 高 的 ， 所 以 它 是 MPE。 您 可 以 很 清楚 地 看 到 ，MPE 不 是 单 
个 变量 最 可 能 值 的 组 合 。 


表 12-1 最 可 能 解释 不 一 定 是 单个 变量 最 可 能 值 的 组 合 。 表 中 ， 每 个 像素 的 最 可 能 值 都 是 Off， 
但 是 最 可 能 解释 是 像素 1 为 Off， 像 素 2 为 On 
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像素 1 像素 2 概 率 
Off Off 0.2 
Off On 0.45 
On Off 0.35 
On On 0 

















总 而 言 之 ，MPE 是 许多 应 用 中 很 有 用 的 一 类 查询 。 我 们 来 看 看 如 何在 Figaro 中 计 
算 MPE。 
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12.2.1 在 Figaro 中 计算 和 查询 MPE 


Figaro 中 计算 和 查询 MPE 的 接口 很 简单 。Figaro 包含 3 个 计算 MPE 的 算法 : 两 种 
子 分 解 算法 MPEVariableElimination 和 MPEBeliefPropagation ， 以 及 抽样 算法 
MetropolisHastingsAnnealer。 我 将 在 下 一 小 节 描 述 这 些 算法 的 工作 方式 , 首先 介绍 其 用 法 。 

每 个 算法 都 是 MPEAlgorithm 的 一 个 实例 。 和 其 他 算法 一 样 , MPEAlgorithm 有 一 次 
性 和 任意 时 间 变 种 。MPEBeliefPropagation 和 MetropolisHastingsAnnealer 都 有 一 次 性 和 
任意 时 间 变 种 ， 但 是 MPEVariableElimination 只 有 一 次 性 版 本 。 下 面 的 例子 说 明了 一 次 
性 算法 的 使 用 方法 ， 但 是 和 往常 一 样 ， 可 以 相同 的 方式 使 用 任意 时 间 版 本 。 

回顾 第 5 章 中 的 图 像 恢 复 场景 ,在 这 一 场景 中 , 您 试图 预测 图 像 中 某 个 像素 的 颜色 。 
该 图 像 由 一 个 马尔 科 夫 网 络 定义 。 每 个 像素 有 一 个 一 元 约束 ， 规 定 像素 为 On〈 开 ) 的 
概率 是 0.4。 每 对 相 邻 像素 也 有 一 个 二 元 约束 ， 规 定 在 其 他 条 件 相 同 的 情况 下 ， 两 个 像 
素 相同 的 概率 两 倍 于 不 同 的 概率 。 这 个 例子 的 马尔 科 夫 网 络 如 图 12-2 所 示 ， 其 中 的 数 
组 从 像素 11 开始 ， 和 第 5 章 中 的 场景 相同 。 
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图 12-2 ” 重 现 第 5 章 的 像素 恢复 马尔 科 夫 网 络 














下 面 的 程序 清单 展示 了 说 明 如 何 使 用 上 述 算 法 计算 图 像 恢复 示例 MPE 方 法 的 代码 。 
在 这 些 清 单 中 ， 像 素 索引 从 00 开始 。 








程序 清单 12-1 用 MPE 恢复 图 像 


val pixels = Array.fill(4, 4) (Flip(0.4)) 
创建 像素 元 素 并 为 其 
def makeConstraint (pixell: Element [Boolean]， 打 


添加 一 元 约束 























pixel2: Element[Boolean]) { 
val pairElem = ^^(pixell, pixel2) 
pairElem.setConstraint (pair 
=> if (pair. 1 == pair. 2) 1.0 else 0.5) 在 像素 对 上 添加 
' 二 元 约束 
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for { 
i <—- 0 until 4 
j <- 0 until 4 
Fo 

















if (i > 0) makeConstraint (pixels(i-1) (j), pixels (i) (j)) 对 相 邻 像素 应 用 
if (j > 0) makeConstraint (Pixels(i) (j-1), pixels (i) (j)) 二 元 约束 
pixels (0) (0) .observe (true) 

0 人 法 对 衣 几 人 中 
, 型 应 用 给 
pixels (2) (0) .observe (true) 观察 一 些 像素 的 定义 的 模型 0 
pixels (2) (3) .observe (false) 值 ， 作 为 证 据 算法 。 像 素 是 模型 中 
pixels (3) (1) .observe (true) ’ 的 元 素 ， 算 法 将 应 用 
到 它们 
def run(algorithm: OneTimeMPE) 一 





algorithm.start () 
for { 1x= 0 until ‘4. { 
for {ff J <= 0 untii4 } -4 














Y 咱 建 i 动 一 次 性 
查询 指定 像素 一 > print (algorithm.mostLikelyValue (pixels (i) (j))) 创建 并 启 动 次 性 
的 最 可 能 值 并 print ("\t") 算法 ， 计算 ME 调用 
打印 结果 | 完成 之 后 ,将 计算 出 每 

Println() 个 像素 的 最 可 能 
} 
Println() 


algorithm.kill () 


def main(args: Array[String]) { 


println("MPE variable elimination") MPEVariableElimination 


S 会 
run (MPEVariableElimination ()) 没有 参数 

println ("MPE belief propagation") MPEBeliefPropagation 
run (MPEBeliefPropagation(10)) 以 BP 迭代 次 数 为 参数 


println("Simulated annealing") 
run(MetropolisHastingsAnnealer (100000, ProposalScheme.default, 
Schedule.default (1.0))) 


} MetropolisHastingsAnnealer 的 


3 个 参数 将 在 下 一 小 节 描 述 




































































在 程序 清单 12-1 中 可 以 看 到 ， 计 算 和 查询 MPE 的 模式 与 常规 的 概率 查询 类 似 。 

1. 创建 所 有 元 素 。 

2. 添加 作为 模型 定义 一 部 分 的 条 件 和 约束 。 

3. 观察 证 据 。 

4. 创建 对 应 算法 的 实例 。 

5. 启动 算法 。 

6. 查询 单独 元 素 的 最 可 能 值 。 虽 然 一 次 查询 一 个 元 素 ， 但 是 得 到 的 是 这 些 元 素 值 
最 可 能 出 现 的 联合 状态 。 
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运行 上 述 程序 将 生成 如 下 输出 : 
MPE variable elimination 
true true false. false 
true true false false 
true true false false 
fa] 


true true false Se 


true true ‘false false 
ErUg true faLses Se 


fa] 
true trus false false 
fa] 





true true false Se 
Simulated annealing 
true true false false 
teue ED SLS false 
true true false: faLse 

fa] 











true true false se 











这 个 例子 特别 简单 ， 所 有 算法 都 很 快 地 生成 正确 的 答案 。 但 是 在 更 有 挑战 性 的 问 
题 上 ， 每 种 算法 各 有 利 浆 。 下 面 我 们 将 更 仔细 地 观察 这 些 算法 ， 了 解 它 们 在 何 时 工作 




































































导 更 好 。 








12.2.2 MPE 查询 算法 的 使 用 


解答 MPE 查询 的 算法 通常 是 常规 概率 查询 算法 的 变种 。 和 常规 查询 一 样 ， 可 以 使 
用 因子 分 解 算 法 或 者 抽样 算法 。 我 将 首先 描述 两 种 因子 分 解 算 法 ， 然 后 描述 抽样 算法 。 
因为 您 已 经 了 解 了 这 些 算 法 的 基本 原理 , 我 就 不 再 像 第 10 章 和 第 11 章 那 样 详 细 解 说 了 ， 
而 是 指出 其 主要 思路 。 



























































































































































































































































MPE 因子 分 解 算 法 
MPE 的 目标 是 计算 具有 最 高 概率 的 可 能 世界 。 例 如 ， 假 定 一 个 可 能 世界 包含 像素 
00 的 值 poo， 像 素 01 的 值 po…… 直 到 p33。 这 个 可 能 世界 的 概率 为 POPixel 00 = poo, Pixel 
































01 = po1, .… Pixel 33 = p33)。 您 希望 最 大 化 这 个 概率 ， 这 意味 着 您 希望 知道 : 


InaXp Inaxp ...maxp,, P(Pixel 00 = poo, Pixel 01 = pol, ..., Pixel 33 = p33) 


从 第 10 章 中 知道 ， 可 能 世界 的 概率 是 因子 的 乘积 ， 在 这 个 例子 中 就 是 单个 像素 上 
一 元 因子 以 及 相 邻 像 素 上 二 元 因子 的 乘积 。 任 何 可 能 世界 的 最 大 概率 就 是 因子 乘积 的 最 
大 值 。 这 被 称 作 最 大 乘积 表达 式 。 如 果 一 元 因子 为 U， 二 元 因子 为 B， 可 以 写 出 如 下 的 
最 大 乘积 表达 式 : 

U(Pixel 00 = poo)U(Pixel 01 = pol) ...U(Pixel 33 = p33) xX 

Iaxpu MaxXp, ...maxp,, B(Pixel 00 = poo, Pixel 01 = po1) ...B(Pixel 32 = pz, Pixel 33= p33) 
xB(Pixel 00 = poo, Pixel 10 = p10) ...B(Pixel 23 = py;, Pixel 33 = p3;) 
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在 这 个 表达 式 中 ， 第 一 行 包含 一 元 因子 ， 第 二 行 包 含水 平 相 邻 的 像素 对 上 的 二 元 
子 ， 第 三 行 包 含 垂直 相 邻 的 像素 对 上 的 二 元 因子 。 总 之 ， 您 取 的 是 所 有 变量 上 这 些 因 
乘积 的 最 大 值 。 
正如 常规 的 变量 消除 法 (VE) 是 通过 操纵 一 个 乘积 之 和 表达 式 运行 的 MPE VE 是 
通过 操纵 最 大 乘积 表达 式 运行 的 。 它 每 次 消去 一 个 变量 。 变 量 消除 过 程 如 图 12-3 所 示 ， 
开始 的 方式 与 常规 变量 消除 法 类 似 : 首先 将 提 及 该 变量 的 所 有 因子 相 乘 。 然 后 ， 求 取消 
去 变量 的 最 大 值 而 不 是 计算 其 总 和 。 这 会 生成 在 包含 被 消去 变量 的 因子 中 提 及 的 所 有 变 
量 上 的 一 个 因子 。 在 本 例 中 ， 创 建 的 是 像素 21 和 像素 12 上 的 因子 。 


回溯 表 


























小 本 






















































































像素 21 和 像素 12 上 的 因子 

















图 12-3 MPE VE 算法 中 消去 像素 11 的 结果 。 在 像素 21 和 像素 12 上 创建 了 一 个 新 因子 。 此 外 ， 创 建 
一 个 回溯 表 ， 可 以 在 像素 21 和 像素 12 的 值 已 知之 后 恢复 像素 11 的 最 可 能 值 

















计算 变量 最 大 值 和 加 总 变量 类 似 。 在 这 两 种 情况 下 ， 都 从 因子 中 删除 给 定 的 变量 。 
在 加 总 的 情况 下 ， 对 于 其 他 变量 值 的 每 个 组 合 ， 该 因子 都 包含 与 那些 值 相 关 的 数字 的 总 
和 。 类 似 地 ， 在 求 最 大 值 的 情况 下 ， 该 因子 包含 与 每 个 其 余 变量 值 相关 数字 的 最 大 值 。 
表 12-2 中 的 例子 说 明了 上 述 过 程 ， 该 表 中 有 两 个 变量 一 一 像素 1 和 像素 2， 由 表 中 
的 因子 联系 。 表 12-3 展示 了 求 取 像 素 2 最 大 值得 到 的 因子 。 这 个 因子 中 的 变量 取 自 所 
有 提 及 被 消去 变量 的 因子 (除了 被 消去 变量 本 身 )。 在 这 个 例子 中 ， 该 因子 中 的 唯一 变 
量 是 像素 1。 对 于 像素 1 的 任何 给 定 值 (如 Off)， 因 子 中 的 条 目 是 与 该 值 一 致 的 输入 因 
子 中 最 大 的 条 目 。 与 像素 1 为 Off 一 致 的 两 行 中 ， 条 目 分 别 为 0.2 和 0.45， 因 此 最 大 值 
是 0.45。 
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表 12-2 消去 像素 2 的 输入 因子 














像素 1 像素 2 床下 = 
OfF OfF 0.2 
OfF On 0.45 
On Off 0.35 
On On 0 














像素 1 0 
OfF 0.45 
On 0.35 

















除了 计算 一 个 变量 的 最 大 值 ， 生 成 因子 之 外 ， 在 消去 变量 时 还 创建 第 二 张 表格 。 这 
就 是 回溯 表 ， 该 表 使 算法 可 以 在 其 他 变量 的 最 可 能 值 确定 之 后 ， 恢 复 被 消去 变量 的 最 可 
能 值 。 在 解决 MPE 问题 时 ， 您 不 仅 对 找 出 最 高 概率 的 可 能 世界 感 兴趣 ， 还 对 找 出 可 能 
世界 中 的 变量 值 感 兴趣 。 回 溯 表 的 目的 就 在 于 此 。 对 于 未 消去 变量 的 每 个 可 能 值 ， 这 个 
列表 列 出 了 导致 输入 因素 中 最 高 条 目的 消去 变量 值 。 

在 我 们 的 例子 中 ， 回 溯 表 如 表 12-4 所 示 。 未 消去 变量 是 像素 1， 被 消去 变量 是 像素 
2。 该 表 显 示 对 于 像素 1 的 每 个 值 ， 导 致 表 12-2 中 因子 最 大 条 目的 像素 2 值 。 假 定 像素 
1 是 Off， 在 输入 因子 中 ， 像 素 2 为 off 导致 条 目 值 为 0.2， 而 On 导致 条 目 值 0.45。 所 以 
当 像 素 1 为 Off， 像 素 2 的 最 大 化 值 为 On。 您 在 表 中 记录 这 个 值 。 































































































































































































































































































表 12-4 从 表 12-2 中 的 因子 消去 像素 2 时 生成 的 回溯 表 








像素 1 像素 2 
Off On 
On Off 









































在 过 程 结 束 时 ， 所 有 变量 都 被 消去 。 之 后 ， 可 以 通过 该 表 回 滴 ， 找 出 MPE。 我们 从 
被 消去 的 最 后 一 个 变量 开始 , 假定 这 是 像素 1。 因 为 在 此 变量 之 后 没有 其 他 变量 被 消去 ， 
您 得 到 了 只 有 一 个 像素 1 值 的 表格 ， 假 定 该 值 为 Off。 可 以 将 该 值 视 为 像素 1 的 最 可 能 
值 ， 然 后 ， 回 到 前 一 个 被 消去 变量 ， 假 定 是 像素 2。 进 入 消去 像素 2 时 产生 的 回溯 表 一 一 
表 12-2 的 右 下 角 。 搜 索 像 素 1 = Off 的 行 ， 读 出 像素 2 的 最 可 能 值 On。 以 变量 消除 的 倒 
序 对 所 有 变量 继续 上 述 过 程 ， 最 终 得 到 完整 的 MPE。 

MPE 置信 传播 (BP〉 和 常规 BP 也 极其 相似 。 正 如 BP， 它 通过 在 节点 之 间 传 递 
消息 ， 根 据 消 息 执 行 因子 运算 工作 。 唯 一 的 差别 是 在 每 个 节点 上 执行 的 不 是 加 总 运算 
而 是 最 大 化 运算 。 最 大 化 运算 与 表 12-2 左下 角 所 示 的 相同 。MPE BP 往往 被 称 作 最 大 
乘积 算法 。 








































































































































































































































































































第 12 章 ”处 理 其 他 推理 任务 








关于 MPE VE 和 MPE BP, 需要 记 住 的 一 点 是 它们 的 属性 与 常规 算法 类 似 。 MPE VE 
是 精确 算法 ， 所 以 如 果 可 行 ， 它 就 是 最 佳 选 择 。 其 复杂 度 与 常规 VE 相同 : 和 变量 消除 
顺序 诱导 图 中 最 大 团 的 大 小 成 指数 关系 。 所 以 它 适合 的 问题 与 常规 VE 相同 。 对 于 图 像 
恢复 , 最 大 团 的 大 小 等 于 图 像 一 侧 的 像素 数 。 在 前 面 一 个 例子 中 只 有 4 个 像素 , MPE VE 
是 可 行 的 ， 但 是 随 着 像素 数 的 增加 ， 其 代价 将 与 每 一 侧 的 像素 数 成 指数 关系 。 

MPE BP 是 一 种 近似 算法 ， 属 性 与 BP 类 似 。 它 往往 工作 得 很 好 ， 速 度 也 很 快 ， 但 
是 不 能 保证 得 出 最 优 的 结果 .帮助 MPE 更 好 工作 的 思路 和 常规 BP 相同 : 避免 过 多 的 环 ， 
合并 元 素 , 分 解 有 许多 父 变 量 的 CPD, 使 用 衰减 CPD。 简化 网 络 对 MPE VE 和 MPE BP 
都 有 帮助 。 

模拟 退火 

最 常用 的 抽样 MPE 算法 称 为 模拟 退火 (simulated annealing，SA) 算法 。SA 与 
Metropolis-Hastings 紧密 相关 。 在 MH 中 ， 抽 样 程序 在 状态 空间 中 漫游 ， 最 终 达到 与 该 
状态 概率 相同 的 一 个 状态 。MH 找到 的 不 一 定 是 概率 最 大 的 状态 ， 而 是 在 各 种 高 概率 状 
态 中 游 走 。 与 此 相反 ，SA 找 出 最 可 能 的 状态 。 它 在 状态 空间 中 移动 ， 通 常 转向 概率 更 
高 的 状态 ， 但 是 偶尔 会 “倒退 ”到 概率 较 低 的 状态 。 图 12-4 说 明了 MH 和 模拟 退火 运 
行 轨迹 的 不 同 。 





















































































































































































































































































































































高 概率 区 域 最 可 能 状态 
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n - Nn 


图 12-4 Metropolis-Hastings 和 模拟 退火 算法 的 对 比 





















































SA 有 时 转移 到 较 低 概率 状态 的 原因 是 为 了 帮助 它 更 好 地 探索 状态 空间 。 如 果 只 
向 高 概率 状态 转移 ， 可 能 会 陷入 某 个 局 部 最 大 值 ， 这 种 状态 的 概率 高 于 邻近 状态 ， 
但 是 远离 它 的 状态 可 能 有 高 得 多 的 概率 。 探 索 状 态 空间 使 SA 避免 陷入 局 部 最 大 值 ， 
找 出 状态 空间 中 总 体 更 好 的 部 分 。SA 试图 在 探索 状态 空间 和 转移 到 高 概率 状态 之 间 
寻求 平衡 。 开 始 时 ， 它 倾向 于 四 处 移动 ， 最 终 ，SA 将 焦点 放 在 找 出 具有 高 概率 的 邻 
近 状 态 上 。 

SA 使 用 温度 的 概念 实现 上 述 目标 。 直 观 地 说 ， 温 度 控制 SA 探索 状态 空间 的 方式 。 
如 果 温 度 很 高 ，SA 倾向 于 随机 探索 状态 空间 ， 如 果 温 度 很 低 ， 它 积极 地 向 可 能 性 更 高 


































































































































































































的 状态 转移 。SA 的 策 | 


12.2 计 











探索 ， 最 后 则 聚 





焦 于 6466 磨炼 3 最 有 可 能 
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名 从 高 温度 开始 ， 随 着 时 间 推 移 使 
的 状态 。 











冷却 ， 所 以 开 




















不 同 的 SA 实现 在 温 
率 为 pp， 提 议 的 六 
































度 的 使 ) 
新 状态 概率 为 p1。 
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影响 ? 我 们 将 接收 衣 
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这 个 数 将 大 于 





穷 大 ， 接 受 概率 始终 为 1， 则 始终 接受 








1， 新 状态 总 是 会 被 接受 。 
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上 略 有 不 同 。 
如 果 温 度 为 1， 接收 


LE 


所 状态 的 概率 作为 温 
3 则 ， 接 受 概率 取决 于 温度 


下 面 介 





绍 Figaro 的 实现 。 假 定 ] 
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新 状态 和 前 一 状态 概率 相同 
转移 。 在 两 者 之 间 
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时 ,1 值 


法 探索 得 越 少 。 


注意 : 





在 该 算法 的 技术 定义 中 ， 


























温度 随时 


换言之 ,冷却 进度 表 控 制 算法 在 开始 
认 的 标准 冷却 进度 表 ， 这 足以 应 

默认 的 冷却 进度 表 有 个 控制 冷却 速度 
这 个 参数 越 大 ， 退 火花 费 越 多 


般 来 说 ， 
能 性 越 小 。 


El 
背景 : 在 物理 学 





在 高 温 下 ， 材 料 在 不 同 能 态 
榨 制 探索 的 不 同 能 态 数 量 ， 


您 可 以 这 检 


MetropolisHastingsAnnealer (100000, Proposalsc 


度 表 : 





标准 
我 们 使 / 
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默认 方案 ) 和 冷却 进度 表 (这 
许多 和 MH 相同 的 属性 ， 它 是 一 种 
您 不 仅 必 须 提 


提供 


冷却 进度 表 和 和 迭代 次 数 之 间 也 可 能 有 微妙 的 相互 作用 。 


慢 ， 很 难 使 ] 
了 好 的 提议 方案 ， 


间 变 化 的 速度 由 冷却 进度 表 
最 大 
大 部 分 















































所 状态 。 


空 制 |。 


的 时 间 寻 


这 对 应 于 纯粹 的 探索 。 
， 和 否则 新 状态 永远 不 会 被 接受 ， 这 对 应 于 纯粹 向 
致 探索 和 概率 最 大 化 的 不 同 平衡 。 一 般 来 说 ， 


冷却 进度 
化 概率 之 前 进行 多 少 次 探索 。 
青 况 。 
的 参数 。 这 个 参数 
找 最 可 能 值 ， 
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如 果 pi 大 于 
。 如 果 温 度 t 为 无 
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台 时 更 多 的 是 


于 始 的 概 
新 状态 的 概率 由 如 下 公式 给 出 : 
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除非 





























t 值 越 小 ， 


高 概率 状态 


算 


接受 概率 还 取决 于 用 于 提议 新 状态 的 提议 分 布 属性 。 在 Figaro 
中 , 取决 于 提议 分 布 属性 的 项 通常 被 删 去 ， 因 此 , 接受 概率 取决 于 状态 概率 之 间 的 比例 。 


度 何 时 、 多 快 下 降 。 














了 默 


























晶 是 停 在 局 





























方法 之 一 是 从 1.0 开始 ， 如 果 怀 疑 





上 , 退火 是 通过 逐渐 降温 , 找 出 材料 低能 态 的 技术 。 低 外 


上 b 子 叉 








间 转 移 ， 而 在 较 





创建 SA 实例 : 





Schedule.default (1.0)) 


以 及 找 出 最 小 
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能 态 的 速度 。 





MetropolisHastingsAnnealer 构造 程序 有 3 个 参数 : 样本 数量 
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heme .default, 


Figaro 提供 


的 值 越 大 ， 冷 却 越 慢 。 一 
部 最 大 值 的 可 








、 提 议 方 案 








j 参 数 为 1.0 的 默认 进度 表 )。 




















(这 是 


























其 出 色 地 工作 。 



































的 最 佳 方式 是 反复 尝试 。 

















通用 算法 ， 可 用 于 广泛 的 模型 上 。 但 


























是 SA 


提议 方案 ， 还 要 指定 冷却 进度 表 。 即 


























管理 这 种 
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管理 SA 的 技术 之 一 是 比较 不 同 迭 代 次 数 的 结果 。 如 果 一 直 得 到 相同 结果 ， 那 么 该 
结果 可 能 就 是 正确 的 答案 。 如 果 得 到 不 同 结果 ， 可 能 碰 到 局 部 最 大 值 ， 应 该 增 大 参数 ， 
调 慢 冷却 进度 。 如 果 得 到 相似 但 不 完全 相同 的 结果 ，SA 可 能 还 没有 收敛 到 最 大 值 ， 应 
该 加 速 冷 却 或 者 运行 更 多 次 迭代 。 




























































































































































































12.2.3 ”探索 MPE 算法 的 应 用 


在 实践 中 , MPE 的 计算 几乎 和 给 定 证 据 下 查询 变量 概率 的 计算 一 样 广 泛 使 用 。 应 用 

的 例子 包括 : 

加 ”识别 可 能 的 行动 序列 一 一 您 可 能 希望 根据 一 个 图 像 或 者 视频 序列 了 解 正在 进行 
的 活动 。 例 如 ， 如 果 您 有 一 场 足 球赛 的 视频 ， 可 能 想 要 发 现 其 中 正在 进行 的 活 

动 (发 角球 、 中 和 锋 跃 起 头 球 攻 门 、 守 门 员 鱼 跃 扑 救 )。 足 球赛 中 可 能 的 行动 序列 
和 结果 图 像 可 以 用 HMM 表示 。 
在 HMM 中 ，MPE 任务 是 根据 给 定 的 观测 值 ， 计 算 最 可 能 的 隐 含 状态 序列 。 在 
第 10 章 中 , 您 已 经 知道 VE 因 其 线性 结构 而 成 为 适用 于 HMM 的 好 算法 。 同样， 
MPE VE 很 适合 于 HMM 中 的 MPE 任务 .用 于 HMM 的 MPE VE 被 称 作 Viterbi 
算法 。 

国生 成 自然 语言 句子 的 最 可 能 解析 一 一 在 第 10 章 中 您 曾经 学 过 ，PCFG 是 表示 句 
子 概率 模型 的 简单 、 流 行 框 架 。 通 过 PCFG， 您 可 以 根据 模型 查询 句子 最 有 可 
能 的 解析 。 同 样 ，MPE VE 很 适合 此 类 问题 。 

四 图 像 分 析 一 一 您 已 经 在 本 书 中 看 到 了 图 像 修复 的 例子 , 这 是 MPE 推理 的 典型 应 

用 之 一 。 根 据 一 个 不 完整 的 图 像 ， 您 希望 找 出 最 可 能 的 完整 图 像 。 例 如 ， 根 据 
人 脸 的 部 分 图 像 ( 在 照片 中 , 只 能 看 到 人 脸 的 一 部 分 ), 生成 这 个 人 的 完整 图 像 。 
这 可 能 有 助 于 识别 照片 中 的 人 物 。MPE BP 和 SA 都 可 以 用 于 这 种 场景 。 

田 ”诊断 一 一 本 节 开 始 的 打印 机 诊断 模型 是 诊断 问题 的 一 个 例子 。 男 一 个 例子 是 医 
学 诊断 ， 其 目标 是 根据 报告 的 症状 和 检查 诊断 患者 的 疾病 。 在 诊断 中 ， 您 往往 
希望 知道 所 有 变量 的 最 可 能 状态 一 一 例如 ， 打 印 机 、 网 络 、 软 件 和 用 户 状 态 的 
最 可 能 组 合 。 这 有 助 于 指明 首先 进行 的 测试 和 可 能 处 理 的 故障 。 
根据 模型 结构 ， 任 何 MPE 算法 都 可 用 于 诊断 。 例 如 ， 第 10 章 介 绍 了 医学 诊断 
的 两 层 网 络 , 其 中 疾病 在 第 一 层 , 症状 在 第 二 层 。 正 如 第 10 章 中 所 述 , MPE BP 
是 适合 这 种 结构 的 出 色 算 法 。 

四 科学 应 用 一 一 第 11 章 讨 论 了 MH 在 生物 学 上 的 应 用 , 其 目标 是 根据 表 型 (基因 

在 人 类 特质 上 的 表现 ) 确定 一 个 人 有 某 种 基因 的 概率 。 您 可 以 将 这 种 查询 转换 

为 MPE 查询 ， 目 标 是 找 出 最 有 可 能 的 基因 型 。 正 如 第 11 章 中 的 MH 是 边缘 概 

率 计算 的 好 算法 ，SA 也 是 适合 于 MAP 查询 的 算法 。 
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边缘 MAP 
另 一 类 查询 是 给 定 证 据 下 查询 变量 边缘 概率 的 计算 和 MAP 的 组 合 , 称 作 边缘 MAP。 在 边 
缘 MAP 中 ， 您 想 要 计算 某 些 变量 的 最 可 能 值 ， 同 时 加 总 或 者 边缘 化 其 他 变量 。 例 如 ， 在 打印 




















人 E 状 态 ， 同 时 边缘 化 网 络 、 软 件 和 用 户 。 

边缘 MAP 通常 是 很 有 用 的 查询 ， 但 是 比 常规 边缘 概率 查询 或 者 MAP 查询 更 难以 回答 。 

边缘 MAP 定义 涉及 最 大 化 和 总 计 的 最 大 乘积 和 表达 式 。 在 VE 和 BP 等 因子 分 解 算法 中 , 重要 
的 是 能 够 随意 地 移动 变量 。 在 边缘 MAP 中 ， 问 题 是 无 法 合理 地 在 总 计 中 移动 最 大 化 ， 这 将 严 
重 限 制 算法 所 能 执行 的 运算 。 边 缘 MAP 算法 是 概率 推理 研究 的 重要 问题 。Figaro 没有 包含 任 
何 边缘 MAP 算法 , 但 是 我 们 计划 在 未 来 加 入 它们 。 是 常规 活动 还 是 入 侵 活动 ,但 是 遗憾 的 是 ， 
您 没有 许多 攻击 活动 的 例子 以 学 习 模 型 。 而 且 ， 您 担心 新 的 攻击 类 型 不 同 于 之 前 见 过 的 任何 一 
种 攻击 。 











































































































































































































12.3 ”计算 证 据 的 概率 


除了 计算 查询 变量 上 的 概率 分 布 或 者 最 可 外 0 有 时 候 您 还 想 要 计算 观察 到 
的 证 据 的 概率 。 例 如 ， 假 定 您 试图 监控 网 络 ， 检 测 攻击 。 您 可 以 使 用 概率 方法 确定 某 个 


活动 


















































在 这 种 情况 下 ， 您 可 以 尝试 创建 如 下 变量 的 联合 概率 分 布 : 表示 该 活动 是 正常 活动 
或 者 入 侵 活 动 以 及 表示 活动 类 型 的 变量 。 但 是 这 种 模型 无 效 ， 因 为 您 不 知道 在 确定 活动 
为 入 侵 式 活 动 时 ， 攻 击 的 条 件 概率 。 替 代 方 法 之 一 是 创建 正常 活动 的 模型 ， 标 记 该 模型 
下 任何 特别 不 寻常 的 情况 。 在 这 种 “异常 检测 ” 方 去 中 ,您 将 创建 正常 活动 的 概率 模型 。 
对 于 某 种 特定 活动 ， 您 将 声明 该 活动 的 特性 ， 作 为 模型 中 的 证 据 ， 并 询问 证 据 的 概率 。 
如 果 概 率 足 够 小 ， 可 以 将 该 活动 标记 为 异常 。 这 并 不 意味 着 这 种 活动 就 是 入 侵 ， 而 是 将 
其 标记 为 值得 调查 的 事项 。 

证 据 概率 计算 的 另 一 种 应 用 是 分 类 。 下 面 我 们 将 在 HMM 的 背景 下 思考 第 10 章 中 
讨论 的 语音 识别 应 用 。 在 语音 识别 中 ， 每 个 单词 作为 HMM 建 模 ， 在 模型 中 隐 含 状态 对 
应 于 发 出 一 个 单词 的 各 个 阶段 ， 观 测 值 对 应 于 生成 的 音频 信号 。 为 了 使 用 贝 叶 斯 推理 确 
定单 词 的 概率 ， 需 要 夫 : (a) 单词 的 先 验 概 率 ，(b) 单词 的 似 然 率 ， 即 给 定单 词 观测 
序列 的 概率 。 似 然 率 等 于 对 应 于 单词 的 HMM 中 各 个 观测 值 的 概率 。 因 此 ， 要 计算 单词 
的 后 验 概 率 分 布 ， 就 必须 计算 每 个 单词 在 HMM 中 的 证 据 概率 。 
忆 为 计算 证 据 的 概率 和 以 前 的 概率 推理 方法 有 所 不 同 ， 我 将 使 用 图 12-5 讲解 ， 该 
图 与 第 1 章 中 的 框图 类 似 。 

前 两 步 和 常规 的 概率 推理 类 似 : 在 概率 模型 中 编码 一 般 知识 ， 在 证 据 中 编码 关于 具 
本 情况 的 知识 。 在 这 个 例子 中 ， 一 般 知 识 与 正常 网 络 活动 相关 。 然 后 ， 查 询 是 计算 证 据 
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的 概率 ， 该 系统 使 用 推理 算法 回答 查询 并 返回 证 据 的 概率 。 概 率 推理 的 这 种 用 法 包含 最 
后 一 个 步骤 : 决定 如 何 处 理 这 一 答案 的 决策 模块 。 决 策 模块 将 编码 一 个 策略 。 例 如 ， 每 
当 证 据 概 率 低 于 预先 确定 的 某 个 阔 值 时 发 出 警报 就 是 一 个 简单 的 策略 。 
































2. 提 供 特定 活动 的 相 
关 知 识 作为 证 据 






概率 推理 系统 












1. 在 模型 中 编码 关于 | 
正常 网 络 活动 的 知 一 、 
识 和 相关 的 因素 十 
NAN 
一 \ 
5 系统 返回 答案 一 网 
4 系统 使 3. 告 诉 系统 您 想 
4 要 知道 的 结果 


6. 决 策 模块 决定 对 答案 采取 何 种 行动 。 例 
如 ， 它 可 能 在 概率 低 于 阔 值 时 发 出 警报 


图 12-5 ”使 用 概率 推理 计算 网 络 入 侵 检测 应 用 中 证 据 概 率 的 步骤 





12.3.1 观察 用 于 证 据 概率 计算 的 证 据 


本 节 继 续 上 一 节 中 的 图 像 示 例 ， 但 是 现在 您 所 要 计算 的 是 观察 到 的 像素 的 概率 。 模 
型 与 之 前 相同 。 接 下 来 ， 我 将 说 明 观察 证 据 的 方法 。 

您 可 能 会 说 ， 您 已 经 知道 如 何 观察 证 据 了 一 一 使 用 条 件 或 者 约束 。 但 是 条 件 和 约束 
可 能 是 模型 的 一 部 分 而 非 证 据 。 例 如 ， 在 图 像 模型 中 ,“ 相 邻 像素 可 能 相同 ”的 约束 是 
模型 的 一 部 分 ， 而 不 是 证 据 。 在 计算 证 据 的 概率 时 ， 您 不 应 该 计算 这 些 约束 的 概率 ， 而 
应 该 计算 包含 这 些 约束 的 模型 下 的 证 据 概率 。 





















































注意 : 产生 这 个 问题 的 原因 是 ， 条 件 和 约束 在 Figaro 中 有 两 种 用 途 : 修改 模型 和 声明 证 据 。 到 
目前 为 止 ， 这 还 没有 成 为 问题 ， 因 为 条 件 和 约束 的 两 种 用 途 以 相同 的 方式 影响 查询 。 但 
是 在 计算 证 据 概率 时 ， 您 必须 明确 地 知道 何 为 证 据 。 


























忆 此 ,Figaro 提供 了 一 个 附加 的 机 制 ， 以 明确 地 指定 证 据 。 使 用 这 一 机 制 的 步骤 如 下 。 
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1. 将 您 声明 证 据 的 元 素 与 一 个 名 称 和 一 个 元 素 集合 关联 。 在 我 们 的 图 像 示例 ' 
您 将 把 证 据 应 用 到 单个 像素 ， 所 有 使 用 如 下 的 代码 行 : 


val pixels = 
Array.tabulate(4, 4) ((i: Int, j: Int) => 
Flip(0.4) ("pixel (mm + i+ ","+j+ ")", Universe.universe)) 


这 将 创建 一 个 4x4 像素 数组 。 每 个 像素 为 Flip(0.4)， 该 元 素 与 取决 于 像素 索引 的 名 
称 关联 ,例如 , 坐标 (0, 0) 的 像素 名 为 pixel(0,0)。 每 个 像素 还 与 元 素 集 合 Universe.universe 
关联 ， 该 集合 是 默认 的 宇宙 〈 记 住 ， 宇 宙 就 是 一 个 元 素 集合 )。 
2. 将 证 据 的 每 一 项 转换 为 Evidence 类 的 一 个 实例 。Evidence 类 的 例子 包括 : 
一 一 Observation(true)， 陈 述 值 为 true 的 布尔 元 素 。 
一 一 Condition((i: Int) => i > 0)， 陈 述 值 为 正 的 整数 元 素 。 
一 一 Constraint((d: Double) => 11(d+J)*(d+1))， 对 双 精 度 元 素 应 用 约束 。 
3. 使 用 NamedEvidence 类 的 一 个 实例 ， 将 证 据 的 每 一 项 与 特定 元 素 关 联 。 
NamedEvidence 有 两 个 参数 : 对 应 用 证 据 的 元 素 的 引用 ， 以 及 表示 证 据 的 Evidence 类 实 
例 。 例 如 ， 如 下 代码 指定 索引 〈0,0) 的 像素 值 为 true 的 证 据 : 


NamedEvidence ("Pixel(0,0)"，Observation (true) ) 


4. 将 要 陈述 的 所 有 NamedEvidence 实例 放 到 一 个 列表 中 。 如 下 代码 创建 图 像 程序 
的 所 有 证 据 : 


def makeNamedEvidence(i: Int, j: Int, obs: Boolean) = 
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NamedEvidence("pixel( +i+","+j+ ")", Observation(obs)) 
val evidence = 


List (makeNamedEvidence (0, 0, true), 
makeNamedEvidence (0, 2, false), 
makeNamedEvidence(1, 1, true), 
makeNamedEvidence(2, 0, true), 
makeNamedEvidence (2, 3, false), 
makeNamedEvidence(3, 1, true)) 











这 样 使 用 命名 证 据 和 使 用 条 件 及 约束 指定 证 据 的 作用 相同 。 和 往常 一 样 ， 所 有 元 素 
《本 例 中 是 像素 ) 根据 生成 模型 生成 。 然 后 ， 任 何 有 命名 证 据 的 元 素 都 应 用 一 个 条 件 或 
者 约束 。 添 加 命名 证 据 的 效果 与 添加 条 件 或 者 约束 相同 。 命 名 证 据 使 您 可 以 访问 应 用 条 
件 或 者 约束 的 元 素 。 

现在 ,您 已 经 知道 如 何 用 命名 证 据 的 形式 表达 关于 特定 情况 的 知识 ， 下 面 我 们 来 看 
看 如 何 提出 证 据 概率 查询 和 接收 答案 。 











































































































12.3.2 ”运行 证 据 概率 算法 


现在 ， 您 已 经 为 计算 证 据 概率 做 好 了 准备 。 实 现 这 一 步 的 基本 接口 很 简单 。Figaro 
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提供 两 种 计算 证 据 概率 的 算法 : 类 似 于 重要 性 抽样 的 抽样 算法 ProbEvidenceSampler 和 
因子 分 解 算法 ProbEvidenceBeliefPropagation。 例如 ,调用 如 下 语句 可 以 用 给 定 证 据 上 的 
10000 个 样本 运行 ProbEvidenceSampler 算法 并 打印 结果 概率 : 


println (ProbEvidenceSampler.computeProbEvidence (10000, evidence)) 


使 用 如 下 语句 可 以 在 固定 的 时 间 内 (如 1 秒 ) 运行 ProbEvidenceSampler: 
println (ProbEvidenceSampler.computeProbEvidence (1000L, evidence)) 
1000L 中 的 工 不 能 遗漏 ， 这 告诉 Scala 该 值 是 一 个 长 整数 ， 说 明 它 表示 的 是 一 个 以 
儿 秒 为 单位 的 时 间 而 不 是 样本 数 。 使 用 常规 整数 在 固定 样本 数 上 运行 算法 ; 使 用 长 整数 
则 在 固定 时 间 内 运行 。 
ProbEvidenceBeliefPropagation 与 此 类 似 ， 您 可 以 简单 地 提供 迭代 次 数 和 证 据 : 
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println (ProbEvidenceBeliefPropagation.computeProbEvidence(20, evidence)) 


BP 证 据 概率 算法 的 优 缺 点 和 常规 BP 一 样 ， 它 可 能 很 快 , 但 它 是 一 个 近似 算法 ， 收 
敛 到 的 答案 可 能 与 正确 答案 有 明显 的 差距 , 特别 是 在 多 环 的 网 络 中 。 图 像 网 络 就 是 如 此 ; 
如 果 运 行 本 书 代 码 库 中 的 程序 ， 就 会 看 到 BP 在 不 同 抽样 上 给 出 不 同 的 答案 ， 即 使 用 很 
大 的 样本 数 多 次 抽样 也 是 如 此 。 所 以 ， 对 于 本 例 ，BP 不 是 一 个 好 的 算法 。 
抽样 证 据 概率 算法 有 多 好 ?这 取决 于 您 对 “好 ”的 定义 。 我 们 对 绝对 误差 和 相对 误 
差 做 如 下 定义 。 

国 ”绝对 误差 是 估算 值 和 真 值 之 间 的 差 值 。 例 如 ， 如 果真 实证 据 概率 为 0.0001， 计 

算出 的 答案 为 0.001， 绝 对 误差 是 0.0009， 这 个 误差 似乎 不 大 。 

国 ”相对 误差 等 于 绝对 误差 除 以 真 值 。 在 这 个 例子 中 ， 计 算出 的 答案 (0.001) 10 

倍 于 真实 概率 〈0.0001)， 所 以 从 相对 的 角度 看 ， 结 果 不 太 好 。 确 实 ， 相 对 误差 

为 0.0009/0.0001 = 9。 
用 抽样 法 求 取 证 据 概 率 往往 产生 很 好 的 绝对 误差 ， 但 是 相对 误差 不 佳 。 另 一 种 陈 
述 就 是 ， 它 可 能 告诉 您 概率 接近 于 0， 但 是 难以 确定 小 数 点 之 后 的 第 一 个 有 效 数 字 之 
前 有 几 个 零 。 抽 样 法 的 结果 是 否 足 够 好 取决 于 您 的 应 用 。 对 于 异常 检测 来 说 ， 取 决 于 
正常 情况 的 证 据 概 率 是 否 也 接近 0。 如 果 正 常情 况 的 概率 与 0 有 一 定 距离 ， 抽 样 算法 
就 工作 得 很 好 ， 因 为 它 在 某 种 情况 不 属于 该 类 别 时 能 够 快速 发 现 。 但 是 如 果 正 常情 况 
的 概率 也 接近 于 0， 异 常情 况 更 接近 一 些 ， 抽 样 算法 就 遇 到 麻烦 了 。 尽 管 这 是 抽样 算 
法 的 一 般 属 性 ， 但 是 对 证 据 概率 计算 来 说 问题 特别 严重 ， 因 为 在 这 种 计算 中 您 往往 关 
注 的 是 小 概率 事件 。 

对 常规 概率 查询 中 的 抽样 算法 有 帮助 的 技术 在 此 也 有 效 。 最 重要 的 是 避免 硬 条 件 。 
如 果 模 型 有 许多 硬 条 件 而 导致 满足 所 有 条 件 的 状态 很 少 ， 抽 样 程序 就 很 难 找到 这 些 条 
件 。 估 算 的 概率 通常 为 0 而 不 是 小 的 正 数 ， 按 照 绝对 的 说 法 ， 这 是 正确 的 ， 但 是 按照 相 
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对 的 说 法 ， 这 就 是 严重 的 错误 。 


12.4 小结 


国 您 可 以 创建 一 个 变量 元 组 ， 使 用 常规 推理 计算 多 个 变量 的 联合 概率 分 布 。 但 是 
如 果 想 要 查询 许多 变量 上 的 联合 分 布 ， 创 建 一 个 用 单独 统计 量 总 结 它们 的 变量 
更 好 。 
图 ”可 以 使 用 MPE 查询 计算 所 有 变量 的 最 可 能 值 。Figaro 为 此 提供 了 分 解 和 抽样 ( 模 
拟 退 火 ) 算法 。 在 许多 应 用 中 ，MPE 查询 可 以 作为 边缘 概率 查询 的 替代 方法 。 
量 。 计算 证 据 的 概率 对 于 异常 检测 和 分 类 等 应 用 可 能 有 益 。Figaro 也 为 此 类 任务 提 
供 了 分 解 和 抽样 算法 。 































































































































































































12.5 练习 


在 www.manning.com/books/practical-probabilistic-programming 上 可 以 找到 部 分 练习 
的 解答 。 
1. 使 用 第 5 章 的 打印 机 诊断 程序 ， 计 算 已 知 打印 结果 不 佳 的 ; 
和 网 络 状态 的 联合 概率 。 这 些 变量 是 相关 、 负 相关 还 是 独立 ? 
2. 使 用 同一 个 程序 ， 经 历 12.2 小 节 开 始 时 描述 的 诊断 步 又。 
3. 使 用 同一 个 程序 ， 计 算 打 印 结果 不 佳 这 一 证 据 的 概率 。 
4. 遵照 练习 10.7， 用 Figaro 创建 HMM 的 表现 形式 。 根 据 特定 的 观测 序列 ， 计 算 
生成 那些 观测 值 的 隐 含 状态 的 最 可 能 序列 。 
5. 这 个 问题 涉及 第 5 章 中 的 图 像 恢复 网 络 。 对 于 如 下 任务 ， 试 验 计算 证 据 概 率 的 
不 同 算法 。 
a) 计算 左上 角 的 像素 点 亮 的 证 据 概率 。 
b) 计算 代码 中 data 字段 表示 的 证 据 概 率 。 

















一 一 


青 况 下 ， 打 印 机 状态 
































































































































本 章 介绍 如 下 内 容 : 
监控 动态 系统 的 状态 


学 习 概 率 程 序 的 参数 


13.1 
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动态 推理 和 参数 学 习 





如 何 
如 何 





















































继续 
3.1 小 节 ! 





述 了 可 向 概率 模型 
解 ; 


4 提 晶 























文 些 查 询 。 第 一 种 任务 
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问 
法 。 花 时 
知识 ， 并 介 








13.1 小 节 中 介 
描述 的 粒子 过 











这 一 节 ! 





> ES 
间 了 解 这 些 方法 及 其 
绍 Figaro 中 超越 这 些 知识 
全 控 在 很 大 程 
渡 算 法 基于 第 11 章 中 讨论 的 重要 

















第 二 种 任务 是 从 数 和 








管用 于 这 两 类 推理 的 技术 各 不 相 
































出 的 几 类 不 同 查询 。 本 章 通过 另外 两 种 重要 














广泛 使 











同 ， 但 














使 用 














绍 如 的 动 坟 TGS 系 统 监 





方式 是 很 有 价值 
的 使 用 方法 。 
度 上 依赖 于 介绍 动态 


的 。 














是 从 传感器 接收 信息 ， 随 时 监 ] 
居中 学 习 概率 模型 参数 ， 
是 都 是 许多 应 用 中 所 必要 
本 章 最 后 简 自 







































































13.2 小 节 使 用 了 
(MAP) 和 贝 叶 





监控 动态 


第 8 章 讨 论 如 何 表示 动态 概率 模型 。 进 行 


所 示 。 
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斯 方法 。 











系统 的 状态 





的 素材 。 特 别 是 ，4 
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既 率 模型 的 第 8 章 
于 模型 参数 学 习 的 
解 不 同 的 学 习 方法 ， 如 最 大 化 后 验 





方法 ,如 图 





空 动态 
在 13.2 小 
的 高 级 方 
总 结 本 书 中 所 学 的 
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儿 | 
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图 ”如 图 上 半 部 分 所 示 ， 您 可 以 在 固定 的 时 间 步 中 展开 动态 模型 。 例 如 ， 从 描述 足 
球赛 开始 时 的 初始 状态 入 手 , 可 以 将 其 展开 为 90 个 时 间 步 ,每 一 步 表 示 1 分 钟 。 


这 就 生成 了 一 个 常规 概率 模型 ， 可 以 用 前 几 章 描述 的 常规 手段 进行 推理 。 这 种 









































方法 的 主要 好 处 是 ， 您 可 以 进行 前 向 和 后 向 推理 。 例 如 ， 可 以 使 用 比赛 开始 时 













































































的 条 件 预 测 结果 ， 或 者 使 用 比赛 结果 推断 初始 条 件 。 











四 ”图 中 下 半 部 分 显示 ， 您 可 以 随时 跟踪 系统 状态 。 在 这 种 方法 中 ， 您 不 将 模型 展 
开 到 许多 个 时 间 步 上 ， 而 是 在 每 个 时 点 维护 当前 和 之 前 的 时 间 步 。 当 您 随 着 时 
间 推进 时 ， 生 成 新 的 时 间 步 并 将 其 作为 当前 时 间 步 。 原 来 的 当前 时 间 步 变 成 前 
时 间 步 ， 原 来 的 前 一 时 间 步 则 被 抛弃 。 这 种 方法 的 主要 好 处 是 任何 时 候 内 存 























仅 保持 2 个 时 间 步 














Possession(0) Possession(1) 















































心 


， 可 以 持续 任意 长 的 时 间 。 缺 点 是 ， 您 只 能 向 前 推理 。 
本 节 介 绍 第 二 种 方法 的 使 用 ， 此 类 推理 有 好 几 种 名 称 : 系统 状态 监控 、 状 态 估 
算 或 者 更 具 技 术 性 的 过 滤 。 






































推理 流程 


Possession(90) 


展开 模型 





Possession(0) 


Possession(1) 


Possession(89) 


13-1 动态 模型 推理 的 两 种 方法 。 图 





中 


推理 流程 


Possession(1) 


Possession(2) 
Possession(90) 


监控 


上 半 部 分 展示 了 将 模型 展开 为 全 部 时 间 步 ， 创 建 单一 贝 叶 斯 网 























络 的 方法 。 灰 色 的 箭头 表示 推理 的 流程 ， 在 这 种 情况 下 可 以 进行 前 向 和 后 向 推理 。 图 中 下 半 部 分 展示 了 
监控 活动 一 一 推理 程序 反复 地 从 一 个 时 间 步 转移 到 下 一 步 ， 推 理 流 程 是 单 向 的 
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13.1.1 监控 机 制 
第 8 章 介 绍 了 执行 此 类 推理 的 原理 ， 我 们 在 此 复习 一 下 。Figaro 中 的 监控 使 用 了 字 
























































































































































宙 的 概念 。 每 个 时 间 步 都 有 一 个 不 同 的 宇宙 ， 往 前 推进 时 ， 生 成 新 的 宇宙 以 表示 当前 时 
间 步 。 倒 数 第 二 个 宇宙 被 抛弃 并 进行 垃圾 收集 。 为 了 实现 这 一 过 程 ， 创 建 一 个 初始 宇宙 
以 表示 初始 状态 ， 创 建 一 个 迁移 函数 ， 以 前 一 个 宇宙 为 参数 返回 下 一 个 宇宙 。 从 一 个 字 
宙 转 入 下 一 个 宇宙 的 元 素 必 须 命 名 。 观 察 或 者 查询 的 元 素 也 必须 命名 。 

下 面 是 更 详细 的 步骤 ， 以 及 第 8 章 中 监控 饭店 容量 的 程序 摘要 。 这 个 模型 包含 两 个 





























状态 变量 ， 它 们 都 有 名 称 。 
加 ”seated 一 一 整数 列表 ， 表 示 每 组 就 坐 客人 在 座位 上 已 经 停留 的 时 间 。 

整数 ， 表 示 等 位 客人 的 数量 。 

F 面 是 具体 的 步骤 。 

1. 创建 一 个 宇宙 表示 系统 初始 状态 。 为 每 个 相关 元 素 命名 并 将 其 放 入 初始 宇宙 


创建 表示 初始 状态 的 
a 宇宙 
val initial = Universe.createNew() 


Constarnt (List(0r 57 "19 "523 30 40 60 65, 75)) ("seated", initial) 
Constant (1) ("waiting", initial) 





















































国 Waiting 
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创建 两 个 元 素 ， 以 名 称 
“seated” 和 “waiting” 将 
其 放 在 初始 宇宙 中 




















2. 创建 一 个 迁移 函数 。 前 一 个 宇宙 中 影响 当 
ee 


前 宇宙 的 任何 元 素 都 按 名 访问 。 在 下 















































迁移 本 数 以 前 一 宇宙 
数 ， 返 回 下 一 宇宙 





















































区 2 属 > 
从 前 一 字 4 def nextUniverse (previous: Universe) : Universe = 宇宙 
5 i 
得 到 之 前 的 val next = Universe.createNew () 
« 
seated ” 和 
“waiting ”元 素 val previousSeated = previous .get [List[Int]] ("seated") 


val previousWaiting = previous.get[Int] ("waiting") 

































































































































































13.1 监控 动态 系统 的 状态 345 
i> val newState = Chain (previousSeated, previousWaiting, transition _) 
Apply (newState, (s: (List[Int], Int, Int)) => s._1) ("seated", next) 
ee 2 在 下 一 宇宙 中 创建 一 个 名 
迁移 函数 以 前 一 为 “seated” 的 元 素 ， 这 样 
宇宙 为 参数 ,返回 该 元 素 就 可 以 用 于 后 续 的 
从 前 一 状态 生成 下 一 状态 的 逻辑 下 一 字 宙 宇宙 
包含 在 transition 函数 中 ， 下 划 线 
是 必要 的 , 它 告诉 Scala, transition 
在 这 里 是 一 个 函数 
3. 创建 监控 算法 的 一 个 实例 。Figaro 提供 两 种 监控 函数 : 粒子 过 滤 和 因子 分 解 边 
界 〈factored frontier )。 粒 子 过 滤 是 一 种 抽样 算法 ， 而 因子 分 解 边 界 是 因子 分 解 算法 〈 诚 
如 其 名 )。 粒 子 过 滤 是 最 常用 的 算法 ， 我 将 在 后 面 加 以 说 明 。 
val alg = ParticleFilter (initial, nextUniverse, 10000) 





4， 启动 算法 ， 生 成 初始 时 间 步 上 的 概率 分 布 。 


时 间 步 





陈述 记 


lg.start() 


5. 用 advanceTime 方法 反复 推进 算法 ， 每 次 生成 一 个 时 间 步 。 该 方法 可 以 在 每 个 
NamedEvidence 接口 陈述 。 这 就 是 作为 说 














FE 据 。 订 





F 据 用 











名 的 原 医 





o 








al 








E 据 观察 的 元 


lg.advanceTime (List (NamedEvidence ("waiting", Observation(1)))) 


素 必须 命 


6. 在 每 个 时 间 步 ， 可 以 查询 当前 时 点 各 个 元 素 的 分 布 。 查 询 元 素 必须 命名 。 例 如 ， 
要 得 到 在 饭店 就 坐 的 客人 列表 预期 长 度 


alg.currentExpectation("seated", 














FEF 你 
4DCn 
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现 帮 
法 





粒子 过 滤 。 


13.1.2 ”粒子 过 滤 算法 





























(人 


里 解 了 使 用 过 滤 算 法 的 机 人 








LiSt [Lnt]) 











， 可 以 使 / 





=> 


| 如 下 语句 : 


1.length) 














4 














. 粒子 是 相 





粒子 过 滤 是 基于 重要 性 抽样 的 算法 
说 法 ， 所 以 这 是 一 种 使 用 样本 的 监控 算法 。 














算法 的 运行 


粒子 过 滤 算 法 的 运行 妇 








分 布 昌 





日 一 组 档 





fF 本 表示 。 在 











[图 


用 我 们 来 了 解 一 下 最 广泛 使 / 














本 的 同义词 ， 过 滤 则 是 监控 的 另 一 利 











j 的 过 滤 算 





13-2 所 示 。 这 个 算法 的 主要 概念 是 ， 任 何 时间 点 的 状态 








图 中 的 左 侧 是 





组 表示 前 


状态 分 布 的 粒子 ， 右 侧 是 





组 表示 
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当前 状态 分 布 的 样本 。 两 者 之 间 有 两 个 中 间 阶 段 。 
算法 的 第 一 步 是 取得 前 一 个 状态 的 每 个 样本 ， 并 通过 迁移 函数 所 提供 的 系统 动态 性 
传播 。 这 创建 了 系统 当前 状态 的 新 分 布 ， 但 是 没有 考虑 当前 状态 所 提供 的 证 据 。 下 一 步 
是 根据 证 据 进行 调节 。 这 和 重要 性 抽样 的 实现 方式 相同 ， 但 是 为 每 个 样本 指定 一 个 对 应 
于 该 样本 证 据 概 率 的 权重 。( 具 体 地 说 ， 如 果 样 本 违反 任何 条 件 ， 则 权重 为 0， 否则 ， 权 
重 为 元 素 上 定义 的 约束 值 的 乘积 ) 
此 时 ， 您 有 一 组 加 权 样 本 ， 如 图 13-2 中 的 第 3 步 所 示 。 在 图 中 ， 黑 色 圆 圈 的 大 小 
直观 地 说 明了 样本 的 权重 。 但 是 ， 要 结束 本 算法 ， 您 还 需要 获得 一 组 不 加 权 的 样本 ， 以 
表示 当前 时 间 步 的 分 布 。 






































































































































状态 空间 


3 


加 权 样 本 ; 





一 无 加 权 样 本 -一 直径 表示 权重 无 加 权 样本 
1. 从 前 一 时 间 步 2. 用 迁移 模型 抽样 3 考虑 新 时 间 步 的 证 据 ， 4. 从 加 权 样本 中 重新 
的 样本 开始 下 一 时 间 步 状态 为 每 个 样本 设置 权重 抽样 一 组 无 加 权 样本 ; 


这 些 样 本 将 成 为 新 时 间 
步 的 样本 














图 13-2 ”粒子 过 滤 算 法 : 本 图 显示 了 从 前 一 时 间 点 的 状态 分 布 估算 转移 到 当前 时 间 点 状态 分 布 的 过 程 








这 一 步 由 重新 抽样 过 程 实现 。 在 重新 抽样 中 ,创建 一 组 近似 于 加 权 样 本 概率 分 布 的 
无 加 权 样 本 。 该 算法 从 一 组 加 权 样 本 中 选择 每 个 无 加 权 样 本 。 指 定 加 权 样 本 被 选中 的 概 
率 与 其 权重 成 正比 。 例 如 ， 假 定 某 个 加 权 样 本 的 权重 为 13， 另 一 个 样本 的 权重 为 2/3。 
权重 为 2/3 的 样本 在 新 的 无 加 权 样 本 集中 出 现 的 概率 大 约 2 倍 于 另 一 个 样本 。 所 以 ， 该 
状态 在 无 加 权 粒 子 中 出 现 的 概率 也 2 倍 于 另 一 个 状态 ， 这 和 加 权 粒 子 的 情况 相同 。 

粒子 过 滤 的 属性 
重新 抽样 是 粒子 过 滤 算 法 的 关键 组 成 部 分 。 您 可 能 觉得 奇怪 , 为 什么 需要 这 一 步 ? 
为 什么 不 自始至终 都 使 用 加 权 粒 子 ? 不 能 通过 动态 性 传播 加 权 粒 子 , 然后 计算 新 权重 ， 
根据 证 据 调 节 吗 ? 这 样 做 的 问题 是 ， 您 最 终 将 得 到 一 组 权重 极 小 的 样本 。 在 每 个 时 间 
步 ， 算 法 将 把 当前 样本 权重 乘 以 约束 值 ， 得 到 更 小 的 权重 。 随 着 时 间 的 推移 ， 如 果 过 






































































































































13.1 监控 动态 系统 的 状态 





程 足够 长 ， 任 何 样本 都 不 可 能 表现 出 该 概率 的 轨迹 。 所 以 这 





态 分 布 。 
































子 ， 解决 了 这 个 问题 。 


本 ,只 是 概率 较 小 。 | 










































































样 过 程 保持 高 权 习 





保持 的 样本 通常 能 够 表示 更 有 可 能 出 现 的 轨迹 。 


虽然 重新 抽样 在 这 方面 有 益处 ， 但 是 它 也 有 降低 每 次 迭代 中 样 
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文 组 样本 不 能 代表 真实 的 状 


重新 抽样 在 ss 仅 保 留 对 真实 状态 更 有 代表 性 的 粒 
能 保证 为 您 提供 高 概率 的 样本 ， 仍 然 有 可 能 选中 低 概率 的 样 
样本 的 可 能 性 最 大 。 所 以 ， 




















本 多 样 性 的 有 害 效 





应 。 如 果 一 个 加 权 样 本 的 权重 远大 于 所 有 其 他 样本 ， 下 一 时 间 步 中 几乎 所 有 无 加 权 样 本 


都 对 应 于 该 样本 。 如 果 这 个 样本 就 是 系统 的 真实 状态 当然 很 好 ， 但 























办 ? 粒子 过 滤 很 难 从 之 前 犯 的 “错误 ”中 恢复 。 


这 种 现象 称 作 粒子 饥 俄 。 下 面 是 一 个 例子 
































日 是 如 果 不 是 该 怎么 


。 假 定 您 使 用 粒子 过 滤 监 控 A 队 和 B 队 














的 足球 比赛 状态 。 我 们 假设 有 一 个 变量 表示 球 队 的 相对 实力 。 如 果 A 队 首 先进 球 ， 可 能 


所 有 样 










































































本 都 表明 A 队 强 于 B 队 。 此 时 ， 如 果 这 是 错误 的 结论 ， 即 使 
算法 也 无 法 恢复 ! 没有 任何 B 队 强 于 A 队 的 样本 
步 就 可 能 发 生 的 粒子 饥饿 。 























B 队 射 进 10 个 球 ， 


能 够 留 下 来 ， 图 13-3 说 明 在 一 个 时 间 

















的 样本 集 开 始 样本 ， 维 持 多 样 性 


图 13-3 ”粒子 饥饿 发 生 在 重新 抽 





样 导 致 样本 集中 的 多 样 性 丧失 的 时 候 ， 

















正如 本 例 所 述 ， 粒 子 饥饿 问题 对 于 不 随时 间 变 化 的 变量 来 说 尤 3 





i : ， 


1. 从 多 样 性 合理 2. 从 迁移 模型 中 生成 3. 但 是 在 考虑 证 据 之 后 ， 


其 中 一 个 加 权 粒 子 的 权 
重 远 高 于 其 他 权重 


4. 所 有 重新 抽样 得 到 
的 样本 对 应 于 这 个 
加 权 样 本 ; 多 样 性 
丧失 











其 严 


这 可 能 发 生 在 一 个 时 间 步 中 





| 四 
[EN 


。 在 刚才 描述 








的 模型 中 ， 球 队 的 实力 是 固定 的 ， 所 以 在 粒子 过 滤 算 法 做 出 关于 它 的 决定 之 后 ， 就 不 会 
更 改 。 这 也 暗示 了 对 该 问题 的 潜在 缓解 手段 : 引入 这 些 变量 随时 间 推 移 而 变化 的 概率 。 
例如 ， 如 果 球 队 的 相对 实力 在 每 分 钟 里 有 1% 的 概率 出 现 变 化 ， 即 使 
后 决定 所 有 的 样本 都 显示 其 实力 更 强 ， 在 下 一 时 间 步 中 某 些 样本 也 可 
后 ， 当 B 队 得 分 时 ， 那 些 特殊 的 粒子 将 得 到 更 高 的 权重 ， 从 而 更 多 次 地 被 重新 抽样 。 最 
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算法 在 A 队 得 分 之 








能 会 出 现 变化 。 之 
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终 ， 如 果 B 队 连 续 得 分 ，B 队 更 强 的 样本 将 会 占据 统治 地 位 。 
除了 粒子 饥饿 问题 之 外 ,重要 性 抽样 的 一 般 考虑 因素 也 适用 于 粒子 过 小 。 如 果 单 一 


时 间 步 中 的 证 据 可 能 性 较 小 ， 样 本 集 就 不 能 很 好 地 代表 后 验 分 布 。 标 准 的 缓解 措施 适用 



































































































































于 这 种 情况 。 
图 ”避免 硬 条 件 ， 尽 可 能 使 用 软 约束 。 例 如 ， 观 察 正好 有 5 个 人 在 饭店 等 位 可 能 难 





这 两 种 绥 解 措施 的 原理 都 相同 。 用 更 为 














以 满足 ， 导 致 许多 样本 的 权重 为 0 而 成 为 无 效 样 本 。 做 为 蔡 代 ， 可 以 添加 一 个 
约束 ， 其 值 在 正好 有 5 位 客人 等 位 时 最 大 ， 并 随 着 等 位 人 数 与 5 的 距离 增 大 而 
逐渐 减 小 。 
避免 极 小 的 约束 值 ， 弱 化 软 约束 。 
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平滑 ”的 近似 模型 代 蔡 概率 模型 ， 尽 管 新 模 



























































型 不 准确 




















， 但 是 更 容易 使 用 抽样 算法 推理 ， 结 果 也 可 能 更 好 。 当 然 ， 如 果 调 整 过 度 ， 该 模 





















































型 最 终 会 远离 真实 模型 ， 从 而 使 结果 无 效 。 这 种 平衡 行动 最 好 通过 反复 尝试 加 以 控制 。 














13.1.3 过滤 的 应 用 





























动态 模型 在 概率 推理 中 十 分 普 裔 ， 过 滤 可 能 是 最 广泛 使 用 的 动态 概率 模型 推理 方 





















































法 。 因 此 ， 过 滤 存 在 许多 可 能 的 应 用 ， 下 面 是 一 些 例子 。 























监控 人 或 系统 的 健康 状态 一 一 例如 ， 和 急诊 室 里 可 能 有 一 位 患者 ， 连 接 到 各 种 传 
感 器 (如 温度 和 心率 传感器 )。 您 希望 监控 患者 的 身体 状况 ， 以 便 在 出 现 问 题 时 
快速 干预 。 患 者 具备 隐 含 的 变量 ， 如 失血 量 ， 监 控 目 标 是 随时 根据 传感器 读数 
机 器 人 定位 一 一 如 果 机 器 人 正在 某 个 环境 中 行进 ， 必 须根 据 其 传感器 〈 例 如 ， 
可 能 包括 雷达 ) 跟踪 其 位 置 。 这 种 应 用 中 的 隐 含 变量 与 机 器 人 的 位 置 和 速度 相 
关 。 机 器 人 定位 的 目标 是 根据 传感器 维护 这 些 隐 含 变量 。 这 种 应 用 的 变种 之 一 
称 作 即时 定位 与 地 图 构建 〈simultaneous localization and mapping，SLAM )。 在 
SLAM 中 ， 将 机 器 人 放 入 一 个 未 知 环境 ， 同 时 建立 该 环境 的 地 图 ， 确 定 机 器 人 
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在 环境 中 的 位 置 。 
监视 和 跟踪 一 一 在 监视 应 用 中 ， 一 定数 量 的 传感器 覆盖 某 个 区 域 ， 在 区 域 中 出 
现 物体 时 接收 到 信号 。 例 如 ， 传 感 器 可 能 是 视频 摄像 头 ， 信 和 号 可 能 是 人 或 车 辆 














的 图 像 序列 。 这 个 应 用 中 的 隐 含 变量 是 出 现在 该 区 域 的 物体 。 根据 传 感 器 信号， 
您 希望 算出 区 域 中 有 哪些 物体 。 在 相关 的 跟踪 应 用 中 ， 目 标 是 取得 物体 的 单独 
观测 值 ， 并 将 其 转换 为 物体 在 区 域 中 移动 的 轨迹 记录 。 
建立 复杂 持续 过 程 的 模型 一 一 过 滤 在 建立 长 期 运行 的 复杂 过 程 模 型 上 很 有 
选举 就 是 一 个 例子 ， 在 选举 模型 中 ， 隐 含 状态 包括 附属 于 候选 人 的 变量 ， 妇 
选 人 在 不 同 群 体 的 受 欢迎 程度 。 这 种 隐 含 状态 随 着 时 间 动 态 变化 ， 您 可 以 
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建立 这 种 系统 的 动态 模型 ， 每 个 时 间 步 对 应 一 天 。 传 感 器 就 是 民意 测验 ， 在 选 
举 期 间 ， 民 意 调查 的 结果 能 够 呈现 出 这 种 隐 含 状态 。 如 果 希 望 根据 民意 调查 预 
测 选举 结果 ， 可 以 跟踪 每 天 的 隐 含 变量 状态 。 假 定 距 离 选举 还 有 30 天 。 使 用 过 
滤 ， 就 可 以 得 出 这 个 时 间 点 候选 人 状态 的 概率 分 布 。 现 在 ， 您 可 以 从 当前 初始 
状态 的 估算 开始 ， 将 动态 模型 展开 到 30 步 ， 预 测 选举 的 最 终结 果 。 
13.2 ”学 习 模 型 参数 
本 书 的 第 3 部 分 以 推理 为 焦点 : 根据 证 据 计算 查询 的 答案 。 概 率 编程 系统 的 另 一 项 
重要 任务 是 学 习 : 根据 数据 改进 模型 。 在 学 习 应 用 中 ， 您 不 知道 模型 中 所 使 用 的 数值 参 
数 ， 所 以 使 用 过 去 的 数据 帮助 估算 参数 。 在 贝 叶 斯 学 习 范式 中 ， 使 用 过 去 的 数据 创建 参 
数值 的 后 验 概率 分 布 ， 而 在 最 大 似 然 (ML) 和 最 大 后 验 (MAP) 范式 中 ， 使 用 学 习 算 
法 估算 用 于 模型 的 一 组 参数 值 。 
我 将 重点 放 在 推理 而 非 学 习 上 有 两 个 原因 。 
加 在 贝 叶 斯 学 习 范 式 中 ， 学 习 是 由 某 个 推理 算法 执行 的 。 
四 在 ML 和 MAP 学 习 范 式 中 ， 推 理 算 法 被 用 作 学 习 的 内 循环 ， 学 习 算法 是 围绕 
它 的 相对 简单 的 包装 器 。 
本 节 详 细 介 绍 这 些 要 点 ， 说 明 在 贝 叶 斯 和 MAP 范式 中 学 习 的 方式 。 我 将 描述 所 使 
用 的 两 种 算法 以 及 在 Figaro 中 完成 这 些 任务 的 方法 , 重点 是 学 习 模 型 参数 的 问题 ,对 结 
构 的 学 习 只 做 简单 的 补充 说 明 。 
13.2.1 贝 叶 斯 学 习 
在 第 9 章 中 第 一 次 提 到 的 贝 叶 斯 学 习 方法 中 ， 概 率 程 序 由 两 个 主要 部 分 组 成 。 
国 模型 参数 的 先 验 概率 ， 我 们 将 其 称 作 Pu(Parameters)。0 表示 这 是 看 到 任何 数据 
之 前 的 参数 值 。 
加 每 个 数据 实例 在 数据 实例 中 数据 变量 值 上 的 条 件 概率 分 布 。 我 们 将 其 称 作 
P(Data | Parameters)。 注 意 ， 因 为 这 是 一 个 概率 程序 ， 不 同 数据 实例 中 的 数据 可 
能 有 不 同 的 结构 。 例 如 ， 给 定 实例 中 的 数据 可 能 是 英语 句子 ， 不 同 实例 中 的 名 
子 有 不 同 的 长 
有 了 这 两 个 部 分 ， 就 可 以 使 用 链 式 法 则 定义 参数 和 数据 上 的 联合 分 布 : 
P(Parameters, Data) = Po(Parameters) P(Data | Parameters) 
然后 ， 可 以 用 全 概率 公式 加 总 参数 ， 得 出 数据 上 的 概率 分 布 。 得 到 的 公式 如 图 13-4 





所 示 。 
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给 定 p 的 情况 下 ， 
P 的 先 验 概率 数据 的 概率 


\ 二 
y Y 
P(Data =d)= > p Po(Parameters = p) P(Data= d| Parameters= p) 
入 


对 参数 值 p 求 和 
图 13-4 ”使 用 参数 上 的 概率 分 布 计算 出 的 数据 概率 

















注意 : 因为 参数 通常 是 连续 变量 ,可 能 值 有 无 穷 多 个 ,所 以 使 用 积分 而 非 总 和 。 在 连续 变量 上 ， 
积分 与 总 和 类 似 。 


数据 由 一 组 数据 实例 组 成 ， 每 个 实例 由 数据 变量 的 一 组 值 组 成 。 给 定数 据 的 一 组 参 
数值 的 似 然 率 是 给 定 参数 值 下 该 数据 的 概率 。 这 等 于 给 定 参数 值 下 ， 所 有 实例 中 该 数据 
概率 的 乘积 。 
贝 叶 斯 学 习 中 的 关键 概念 是 贝 叶 斯 法 则 。 贝 叶 斯 法 则 指出 ， 在 数据 给 定 的 情况 下 ， 
参数 值 p 的 后 验 概率 与 p 的 先 验 概率 和 的 似 然 率 的 乘积 成 正比 。 我们 将 后 验 概率 称 为 
Pi(Parameters)， 观 察 到 的 数据 为 4。 则 后 验 概率 可 以 使 用 图 13-5 中 的 公式 计算 。 

































































































































































后 验 先 验 似 然 率 
\ \ \ 
y v v 
P| (Parameters =p)Po(Parameters =p)P(Data = d |Parameters =p) 
4 
/ 
成 正比 
图 13-5 ”学习 参 数 所 用 的 贝 叶 斯 法 则 








使 用 贝 叶 斯 学 习 预 测 未 来 的 观测 值 


在 贝 叶 斯 方法 中 ， 计 算 后 验 分 布 并 用 它 预测 没有 学 到 的 未 来 数据 实例 。 另 一 种 表达 
方法 是 : 对 于 未 来 的 数据 实例 ， 这 个 后 验 分 布 将 成 为 先 验 分 布 。 我 们 将 这 个 后 验 分 布 称 
作 Pi(Parameters)， 并 用 Datai 表示 未 来 的 数据 实例 。 使 用 图 13-4 所 示 的 推理 ， 可 以 得 到 
图 13-6 中 的 公式 。 

现在 ， 将 这 个 公式 代入 图 13-5 中 P; 的 公式 ， 可 以 得 到 从 原始 数据 〈Datao) 中 学 习 
之 后 的 新 数据 (Datal ) 最 终 预 测 公式 ， 如 图 13-7 所 示 。 
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给 定 p 的 情况 下 ， 


新 数据 概率 P 的 后 验 概率 数据 的 概率 
y y y 
P(Data, =dfh )=>pPPR(Parameters= p) P(Data =d) | Parameters=p) 
Ey 
对 参数 值 p 求 和 








图 13-6 ”为 了 得 到 新 数据 的 概率 ， 使 用 参数 值 上 的 后 验 概率 分 布 


成 正比 


y 
P(Datal= diI| Datao= do) 严 


ZrPu(Parameters= p)P(Datao= do | Parameters = PP(Datal= dl Parameters =p ) 
个 + . 


先 验 似 然 率 给 定 p 情 况 下 新 数据 的 概率 
图 13-7 ”给 定 观测 数据 ， 新 数据 概率 的 最 终 公式 














P(Datal = di | Datao = do) 称 作 后 验 预 测 ， 因 为 它 是 基于 参数 值 后 验 分 布 做 出 的 新 数据 
预测 。 现 在 ， 重 点 是 :后 验 预测 公式 是 一 个 乘积 之 和 表达 式 ， 您 可 以 使 用 任何 推理 算法 
计算 。 贝 叶 斯 学 习 是 由 推理 执行 的 ， 不 需要 某 种 特殊 算法 。 

在 Figaro 中 使 用 贝 叶 斯 学 习 

您 已 经 知道 贝 叶 斯 学 习 不 需要 特殊 算法 ， 也 已 经 拥有 了 需要 的 所 有 工具 。 为 了 说 明 
其 工作 原理 ， 我 将 使 用 第 3 章 中 的 垃圾 邮件 过 滤 模 型 的 简化 版 本 。 这 一 过 程 有 以 下 几 个 


































































































表示 已 知 电 子 邮 件 是 

和 否 垃圾 邮件 的 情况 下 
表示 给 定 > val spamProbability = Beta (2,3) 单词 出 现在 该 电子 邮 
电子 邮件 件 中 概率 的 参数 。 
是 垃圾 邮 val wordGivenSpamProbabilities = featureWords 表示 从 训 
件 概率 的 9 .map (word 2 (ere Beta(2,2))).toMap 练 电 子 邮 件 中 得 出 、 
参数 val wordGivenNormalProbabilities = 作为 特征 的 单词 





featureWords.map (word => (word, Beta(2,2))) .toMap 
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2. 创建 定义 单独 数据 实例 〈 即 电子 邮件 》 和 给 定 参数 下 实例 概率 分 布 的 类 : 











class EmailModel 1{ 











表示 电子 邮 

件 是 否 垃 圾 val hasWordElements = { 

邮件 的 元 for { word <- featureWords } yield { 
素 ， 使 用 垃 val givenSpamProbability = 

圾 邮件 概率 wordGivenSpamProbabilities (word) 
参数 val givenNormalProbability = 


wordGivenNormalProbabilities (word) 
val hasWord = 
If (isSpam, 
Flip(lgivenSpamProbability), 
Flip(givenNormalProbability)) 
(word, hasWord) 


} 


val hasWord = hasWordElements.toMap 
} 
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_LP val isSpam = Flip(spamProbability) 表示 单独 电子 邮件 的 类 


根据 上 
邮件 ， 








包子 邮件 是 否 垃圾 
表示 单词 存在 的 元 











素 , 使 用 了 给 定 垃圾 或 者 





正常 








b 件 情况 下 单词 存 


在 的 对 应 概率 


创建 从 单词 到 关联 元 


素 的 映射 














3. 创建 该 类 的 实例 ， 每 个 对 应 于 一 个 数据 实例 〈 训 练 集 中 的 单独 电子 邮件 )。 观 察 














电子 邮件 模型 中 每 个 电子 邮件 相关 的 证 据 。 注 意 ， 训 练 集 ! 























同 参数 的 相同 电子 邮件 模型 。 


















































的 所 有 电子 邮件 使 用 的 是 相 





for { email <- trainingEmails } { 为 每 个 电子 6 件 创建 一 个 
遍历 训练 集 [ Re 新 芯 件 模型 
各 有 历 ] 东 集 val model = new EmailModel 新 的 电子 邮 人 模型 
中 的 所 有 电 for { word <- featureWords } { ， 
子 邮件 model.hasWord (word) .observe (email.text.contains (word)) 观察 模型 中 关于 
} 电子 邮件 文件 的 
model.isSpam.observe (email.label == "spam") 证 据 
} 





















































F) 创建 该 类 的 一 个 实例 。 在 
































4. 为 想 要 预测 的 所 有 未 来 数据 实例 《未 来 的 电子 邮 从 
本 例 中 ， 预 测 的 是 一 个 未 来 的 邮件 ， 但 是 可 以 扩 量 
邮件 使 用 和 训练 电子 邮件 相同 的 模型 和 相同 的 参数 。 


























val futureModel = new EmailModel (dictionary) 



































到 任意 数量 。 同 样 ， 这 个 未 来 的 电子 





35. 现在， 您 可 以 按照 通常 的 方法 回答 未 来 实例 的 查询 。 例 如 ， 您 可 能 想 要 观察 未 



































来 电子 邮件 





的 单词 ， 碍 询 它 是 不 是 垃圾 邮件 。 











/CC 
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for { word <- featureWords } { 


353 


futureModel .hasWord (word) .observe (futureEmail.text.contains (word)) 


} 
:~ Println(Metropolis 
根据 单词 , 使 用 学 习 到 的 参数 推断 未 
来 的 电子 邮件 是 不 是 垃圾 邮件 





Hastings.probability (futureMode1l 


.isSpam, true) 





观察 未 来 电子 邮件 中 的 
察 其 标签 ， 因 为 那 是 未 知 的 


~ 














应 该 使 用 哪 一 种 算法 ? 寿 





E 这 个 例子 ， 








， 我 使 用 上 








| 
a 


常 是 贝 叶 斯 学 习 的 出 色 候 选 。 号 

















取 一 组 参数 值 ， 乍 为 只 
参数 值 的 风险 。 
Metropolis-Hastings 前 


正如 


J 





= 





年 
要 性 


























| 四 
































然 可 以 使 用 
一 可 能 的 参数 值 。 
由 样 则 可 能 因为 数据 实例 很 多 、 记 
i 成 为 了 最 佳 的 候选 。 

前 一 章 所 讨论 的 ，Metropolis-Hastings 可 外 

















对 子 分 解 算法 ,但 是 它 















































已 二 BB HE 


需要 投入 精力 























代码 库 中 的 数据 集 很 简 身 
的 默认 设置 工作 得 很 不 错 。 


了 了 算法。 遗憾 的 是 ， 难 








4 日 
各 

















但 对 于 现实 ! 
以 预先 知道 应 该 


单 , 这 与 第 3 章 不 同 。 对 于 这 种 简 六 














) 


词 , 但 是 不 观 





内 是 Metropolis-Hastings 算法 ， 它 通 








们 将 从 先 验 分 看 





i 














大 





山 





提 
这 样 做 可 能 出 现 无 法 确定 有 高 后 验 概 率 的 
E 据 概率 极 低 而 难以 实施 。 











t， 





才能 有 效 运行 。 





的 数据 自 




















您 起 








本 


要 使 














的 数据 集 ， 














运行 
纪 

















本 能 够 给 出 较为 一 致 的 结 


13.2.2 最 大 似 然 和 MAP 学 习 


GAN TH 


\ 一 /一 


运 休 











日 自 定 义 提议 。 
































您 选择 的 是 最 大 化 先 验 概 率 与 似 然 率 乘积 











参数 值 。 


注意 : 











本 小 节 说 明 如 何 执行 MAP 学 习 ， 这 种 学 习 方法 在 第 9 章 中 第 


和 
1> 





苗 述 在 Figaro 中 实施 该 方法 的 机 制 ， 然 后 解释 所 使 用 的 算法 。 记 住 


























一 次 介绍 。 我 首 9 
， 在 MAP 学 习 中 ， 

















以 ， 我 对 MAP 学 习 所 做 的 说 明 也 适用 于 ML 学 习 。 
Figaro 中 的 MAP 学 习 机 制 


Figaro 提供 了 MAP 学 习 的 常见 模式 。 如 图 








和 


» 


13-8 上 








部 分 所 示 ，MAP 学 习 多 





最 大 似 然 (ML ) 学 习 就 是 使 用 对 每 个 值 指定 相同 概率 的 均匀 先 验 分 布 的 MAP 学 习 。 所 








前 码 ! 

















E+ 


本 章 
长, Metropolis-Hastings 
j 更 多 样本 ， 或 关 
多 长 时 间 ， 所 以 您 应 该 尝试 ， 发 现 多 少 样 


果 。 您 还 可 能 需要 使 月 


长 时 间 


等 


的 参数 值 。 然 后 ， 对 未 来 的 数据 实例 使 用 这 些 











主要 难点 是 将 同一 个 模型 月 
同 的 参数 。 在 学 习 期 间 ， 
概率 。 但 是 ， 在 后 续 的 推 





有 


























二 


习 参 数 和 后 续 测 试 案例 
参数 是 可 学 习 的 。 例 如 ， 您 可 能 使 月 











也 推理 ， 但 








您 





理 中 ， 参 数 是 特定 的 











固定 值 。 例 如 





》 /CA 




















您 











概率 是 0.4， 和 希望 在 以 后 使 


j 这 个 值 。 





大 | 











型 


一 











为 参数 是 不 同 的 元 素 ， 


4 





， 通 过 剪 切 -粘贴 共享 代码 ， 这 很 容易 出 错 。 


一 个 B 分 
能 学 习 到 垃圾 由 





是 这 两 个 模型 使 
6 表示 垃圾 ] 























必须 创建 两 个 不 


不 
B 伯 
bp 件 的 
同 模 
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不 使 用 学 习 模式 
学 习 参 数 推理 参数 
学 习 模 型 - 推理 模型 
/ 
的 切 -粘贴 
使 用 学 习 模式 
模型 参数 
先 验 概率 eg 
学 习 模型 一 一 一 一 一 一 一 一 一 一 一 一 推理 模 开 
a 
公用 模型 


图 13-8 ”为 学 习 和 推理 创建 模型 。 上 半 部 分 说 明 没有 学 习 模式 时 所 应 该 进行 的 工作 。 

为 学 习 和 推理 使 用 不 同 的 参数 元 素 ， 您 必须 创建 两 个 模型 ， 通 过 剪 切 -粘贴 共享 代码 。 

而 使 用 学 习 模 式 ( 下 )， 参 数 封装 在 ModelParameters 类 中 ， 使 用 的 是 共同 的 模型 ， 
该 模型 根据 选择 的 是 先 验 或 者 后 验 参数 而 专门 化 为 学 习 或 者 推理 模型 




















六 





















































Figaro 的 学 习 模 式 ( 如 图 13-8 下 半 部 分 所 示 ) 使 您 可 以 对 学 习 和 推理 使 用 相同 模型 。 
它 使 用 ParameterCollection 数据 结构 ， 这 个 结构 是 一 个 专门 设计 用 于 容纳 Cs 的 元 
素 集合 。 要 使 用 a 式 ， 您 必须 创建 ModelParameters 数据 结构 的 一 个 实例 。 从 
ModelParameters， 您 可 以 得 到 用 于 学 习 的 priorParameters 或 者 用 于 推理 posterior- 
这 两 者 都 是 一 个 ParameterCollection。ParameterCollection 中 的 参数 得 到 一 













































































Parameters; 
个 名 称 ， 您 可 以 在 模型 中 按 名 引用 它们 。 
下 面 是 您 将 使 用 的 步骤 。 您 可 以 在 代码 库 的 MapLearning.scala 中 看 到 完整 的 程序 。 


1. 创建 ModelParameters 实例 。 























val params = ModelParameters () 


13.2 学习 模 型 参数 











2. 为 每 个 参数 俞 名 并 将 其 


val spamProbability = Beta(2,3) ("spam probability", params) 





与 您 的 ModelParameters 关联 。 





val wordGivenSpamProbabilities 
featureWords .map (word => 


(word, Beta(2,2) (word + " given spam", params))).toMap 


val wordGivenNormalProbabilities 
featureWords .map (word => 


(word, Beta(2,2) (word + " given normal", params))).toMap 


3. 让 您 的 模型 以 ParameterCollection 作为 参数 。 








class EmailModel (paramCollection: ParameterCollection) { 


4. 在 模型 中 ， 按 名 称 取得 参数 。 


val isSpam 


5. 对 于 训练 实例 ， 让 其 使 用 


for { email <- trainingEmails } { 





Flip(paramCollection.get ("spam probability")) 

















val model new EmailModel( priorParameters) 


6. 为 了 学 习 MAP 参数 值 ， 使 用 
要 描述 的 ，EM 是 一 种 “元 ”算法 ， 围 绕 一 系列 推理 算法 ! 
用 VE、BP、 重 要 性 抽样 和 MH 的 EM 变种 。 
EM 是 一 种 迭代 算法 ， 任 何 EM 变种 


params. 
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对 于 每 个 特征 词 ， 建 
并 两 个 元 素 ， 并 为 其 








命名 ， 对 应 于 正常 也 


垃圾 邮件 。 将 这 些 刀 


素 放 人 两 个 映射 中 


ModelParameters 的 priorParameters 创建 模型 。 











期 望 最 大 化 (EM) 算法 的 一 个 实例 。 正 如 下 面 所 
的 任何 一 个 。Figaro 包含 使 





的 第 一 个 参数 都 是 迭代 数量 。 其 他 参数 就 是 该 
民 次 数 ， 而 对 使 





算法 变种 通常 使 用 的 参数 。 例 如 ， 对 于 使 用 BP 的 EM， 您 将 指定 BP 大 
用 重要 性 抽样 的 EM, 您 将 提供 样本 数量 。EM 变种 的 最 后 一 个 参数 是 ModelParameters ， 
包含 想 要 学 习 的 参数 。 在 本 例 中 ， 我 使 用 EM 的 VE 变种 。 下 硬 




















EMWithVE (10, 
learningAlg.start() 


val learningAlg params) 


























































































































是 创建 和 运行 该 算法 的 


7. 现在 ,已 经 学 习 了 MAP 参 数值。 您 可 以 在 用 于 未 来 数据 实例 的 模型 中 使 用 这 些 
后 验 参 数值 。 
val futureModel = new EmailModel (params .posteriorParameters) 

8. 现在 ， 您 可 以 通常 的 方式 推理 未 来 的 实例 ， 观 察 证 据 并 运行 标准 推理 算法 。 
val result = VariableElimination.probabilityl(futureModel.isSpam, true) 
println("Probability new email is spam = " + result) 

期 望 最 大 化 算法 

期 望 最 大 化 (EM) 算法 的 目标 是 从 数据 中 学 习 到 一 组 参数 值 。 该 算法 依赖 于 充分 


AAA 





统计 量 的 概念 。 为 了 解释 充分 统计 量 ， 我 将 回 到 第 4 章 和 第 9 章 

















BE 





图 13-9 重 现 了 第 4 章 中 的 模型 。 

















的 B- 二 项 式 模型 。 
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图 13-9 ”Bp- 二 项 式 模型 





我 们 来 复习 一 下 这 个 模型 。 








量 。 模型 中 有 一 个 表示 连续 参数 的 变量 ， 用 B 分 布 建 模 。 例 如 ， 这 个 变量 可 能 表示 硬币 
的 偏差 。B 分 布 有 两 个 参数 : a 和 B。 因 为 它们 是 参数 的 参数 ， 有 时 候 被 称 为 超 参数 。 






































国 ” 男 一 个 变量 表示 使 / 






































上述 参数 进行 给 定数 量 尝试 获得 成 功 的 次 数 , 上 
例如 ， 这 个 变量 表示 硬币 的 偏差 由 B 参 数 表示 时 ， 投 掷 硬币 结果 为 正 





























] 二 项 分 布 建 模 。 
用 的 次 数 。 























鹤 





您 应 该 还 记得 ,在 B 参 数 的 先 验 分 布 中 ,a 表示 观察 到 任何 数据 
加 1。 而 B 表 示 想 象 的 失败 次 数 加 1。 如 果 观 察 到 Ns 次 成 功 ，Nr 次 
布 为 Beta(a+ Ns, B+ Np)。 表 示 参 数 MAP 值 的 分 布 模型 为 : 


EC 

















+Ns—1 
CT+TNy+D+NF 
精确 记忆 上 述 公 式 并 不 重要 ,重要 的 是 发 现在 知道 成 功 次 数 Ns 
您 就 有 了 计算 后 验 参 数 分 布 和 MAP 参数 值 的 所 有 信息 。 成 功 和 失 
要 。 因 此 ，Ns 和 Nr 被 称 为 这 个 B 分 布 的 充分 统计 量 ， 因 为 它们 是 足 
























































之 前 想象 的 成 功 次 数 
失败 ， 参 数 的 后 验 分 


和 失败 次 数 Np 之 后 ， 
败 发 生 的 顺序 无 关 紧 
以 计算 后 验 概率 的 数 





























据 摘要 统计 量 。 因 为 二 项 分 布 通常 观察 Ns 和 Np， 观察 二 项 分 布 的 结果 ， 可 以 提供 B 参 数 












































的 充分 统计 量 。 
参数 分 布 及 其 充分 统计 量 的 例子 很 多 。Figaro 仅 包含 少数 的 例子 , 但 是 很 容易 扩展 。 
最 常见 的 例子 如 下 。 
图 ”您 己 经 了 解 的 Beta 和 Binomial。 
加 ”Beta 和 Flip; 每 个 Flip 为 B 参 数 提供 一 次 成 功 或 者 失败 ， 如 果 有 许多 依赖 于 某 
个 B 参 数 的 Flip， 可 以 像 二 项 分 布 中 那样 ， 将 所 有 成 功 和 失败 加 起 来 。 















































Am 








国 Flip 让 您 在 两 种 结果 




















真 和 假 ) 中 选择 ， 而 Select 在 多 个 结果 中 选择 ， 例 如 


Select(0.2 -> 1, 0.3 -> 2, 0.5 -> 3)。 正 如 Flip 可 以 有 一 个 B 参 数 ，Select 也 可 以 使 



































j 狄 利克 雷 参 数 。 除 了 人 允许 多 种 结果 ， 每 个 可 能 结果 有 
克 雷 参数 与 B 参 数 类 似 。 和 8B 分布 一 样 ， 狄 利克 雷 分 布 的 一 
选择 的 次 数 加 1。 例如 Dirichlet(2, 4, 3) 可 能 是 在 3 个 选项 
布 。 与 之 对 应 的 是 ， 想象 看 到 第 1 种 结果 1 次 ， 第 2 种 结 
































2 次 。 给 定 狄 利克 雷 参数 d， 可 以 使 用 Select(d, List(1, 2, 3)) 创 建 
































Select， 其 中 的 可 能 结果 为 1、2 或 者 3。 





个 超 参 数 之 外 ， 狄 利 
个 参数 表示 看 到 某 种 


中 选择 一 个 的 先 验 分 
果 3 次 ， 第 3 种 结果 
1 d 参数 化 的 
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四 ”表示 其 他 正 态 分 布 均值 的 正 态 分 布 。 例 如 ， 假 定 您 有 一 个 定义 为 Normal(2, 1) 的 
变量 m， 表 示 其 他 正 态 分 布 的 均值 。 其 他 分 布 均 由 Normal(m, 0.5) 定 义 。 假 设 您 
有 其 他 各 个 分 布 的 观测 值 。 这些 观测 值 的 平均 值 足 以 确定 m 的 MAP 值 一 就 等 
于 该 平均 值 。 因 此 ， 在 这 种 情况 下 ， 观 测 值 的 平均 值 是 m 的 充分 统计 量 。 
基本 原理 很 简单 ， 如 果 您 知道 充分 统计 量 ， 就 可 以 计算 MAP 参数 值 。 但 是 很 遗憾， 
在 大 部 分 情况 下 ， 您 无 法 直接 观察 数据 实例 ， 所 以 不 知道 充分 统计 量 。 
另 一 方面 ， 如 果 有 定义 良好 的 概率 模型 ， 可 以 使 用 概率 推理 计算 通常 必须 观察 的 变 
量 的 期 望 值 。 在 B- 二 项 分 布 中 , 您 可 以 计算 预期 的 成 功 和 失败 次 数 。 在 正 态 - 正 态 分 布 中 ， 
您 可 以 计算 法 线 平 均值 的 期 望 值 。 这 些 期 望 值 称 为 预期 充足 统计 量 。 而 且 ， 给 定 预 期 充 
足 统计 量 ， 您 就 可 以 计算 MAP 参数 值 。 遗 憾 的 是 ， 这 仍然 不 够 好 ， 因 为 您 没有 参数 值 ， 
所 以 难以 计算 预期 充足 统计 量 。 
总 结 上 述 情况 : 

四 ”如 果 只 知道 预期 充足 统计 量 ， 您 可 以 用 公式 计算 MAP 参数 值 。 

量 如果 只 知道 MAP 参数 值 ， 可 以 通过 推理 计算 预期 充足 统计 量 。 
看 起 来 您 似乎 陷入 了 困境 ,但 是 这 两 个 因素 暗示 了 一 种 解决 方案 ， 该 方案 在 EM 算 
法 中 得 到 了 体现 。 该 算法 的 流程 图 如 图 13-10 所 示 。 首 先 ， 该 过 程 以 对 参数 值 的 随机 猜 
测 开始 。 之 后 循环 进行 的 两 个 步骤 是 该 算法 名 称 的 由 来 : 在 E (期 望 ) 步 又 中 ， 您 使 用 
当前 参数 值 通过 概率 推理 计算 预期 充足 统计 量 ; 在 M (最 大 化 ) 步骤 中 ， 您 使 用 计算 得 
到 的 预期 充足 统计 量 计 算 MAP 参数 值 。 重 复 这 两 个 步骤 直到 预先 指定 的 最 大 迭代 数 或 
儿 参 数 收 傅 。 收 敛 意味 着 后 续 的 两 次 迭代 得 到 的 参数 值 几 乎 完全 相同 ;如 果 发 生 这 种 情 
况 ， 您 就 知道 算法 不 会 有 太 大 的 进展 ， 可 以 停止 。 
















































































































































































































































































































































































期 望 步骤 : 通过 最 大 化 步 又 : 参数 收 人 
猜测 初始 化 推理 计算 预期 充 通过 公式 将 参数 或 者 达到 最 大 \ 是 -| 返回 最 终 
参数 值 足 统计 量 值 设置 为 MAP 值 和 迭代 次 数 ? 参数 值 









图 13-10 ”期 望 最 大 化 算法 流程 图 





使 用 EM 的 考虑 因素 

要 说 明 运 行 EM 直到 收敛 就 能 得 到 参数 值 空间 中 的 最 大 值 并 不 困难 。 但 是 这 可 能 是 
个 局 部 最 大 值 ; 返回 的 参数 值 比 附 近 任 何 参 数 的 后 验 概率 更 高 ， 空 间 中 其 他 位 置 的 参数 
值 可 能 有 更 高 的 概率 。 因 为 不 同 的 初始 猜测 ，EM 可 能 在 不 同和 迭代 中 返回 不 同 的 结果 。 
在 实践 中 ， 这 意味 着 您 可 能 应 该 用 不 同 的 随机 初始 猜测 多 次 运行 EM， 观 察 哪 一 种 猜测 
得 到 最 佳 的 结果 。 这 种 技术 称 作 随机 重启 。 

我 将 EM 称 作 元 算法 ， 是 因为 它 依赖 另 一 种 算法 进行 了 步 又 中 的 推理 。 这 就 是 EM 
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可 以 包含 任何 推理 算法 、Figaro 提供 多 种 选项 的 原因 


























又 中 ， 所 以 选择 合适 的 推理 算法 很 重要 。 选 择 推理 算法 的 考虑 
常规 推理 相同 。 适 合 于 在 特定 模型 上 进行 常规 推理 的 算法 也 适合 
电子 邮件 模型 中 , 您 可 以 使 用 VE 进行 每 个 单独 数据 实例 










































































的 VE 变种 。 
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。EM 几乎 将 所 有 时 间 花 费 在 EE 步 
素 和 单独 数据 实例 上 的 
使 用 EM 的 学 习 。 在 
,所 以 可 以 使 用 EM 


但 是 ，EM 通常 比 单一 数据 实例 上 的 推理 慢 很 多 。 首 先 ， 在 每 次 EM 迭 代 中 ， 您 必 





WW 


























第 三 ， 您 可 能 需要 使 用 随机 重启 多 次 运行 EM。 








应 该 运行 多 少 次 迭代 ? 这 很 大 程度 上 取决 于 所 解决 的 问题 ， 


但 是 作为 经 验 法 则 ， 我 有 时 候 发 现在 10 次 迷 代 之 后 
的 初始 猜测 重启 算法 。 
EM 在 大 数据 集 上 可 能 产生 的 问题 是 内 存 需 求 ， 























须 在 所 有 数据 实例 上 运行 推理 , 这 些 实例 的 数量 可 能 很 大 。 其 次 ,您 





须 运 行 多 次 迭代 。 


无 法 给 出 通用 的 答案 。 
回报 开始 递减 ， 这 时 最 好 是 以 不 同 








同时 在 所 有 数据 实例 上 运行 EM 要 





求 在 内 存 中 保存 所 有 实例 , 包括 用 于 推理 的 数据 结构 。 这 在 因子 分 解 算法 中 尤其 成 问题 ， 

















因为 因子 可 能 是 很 大 的 数据 结构 ， 但 是 ， 对 于 抽样 算法 这 也 是 个 问题 。 因 此 ， 对 于 大 数 














据 集 ， 可 能 会 出 现 内 存 不 足 的 现象 。 
在 线 EM 





为 了 避免 内 存 问 题 ，Figaro 提供 了 一 种 替代 方案 : 在 线 期 望 最 大 化 算法 。 这 种 算法 






































之 前 的 实例 中 得 到 的 累计 统计 量 ， 执 行 M 步骤 。 








一 般 来 说 ， 您 将 过 历 所 有 数据 实例 ， 逐 个 对 这 些 实例 应 
到 这 样 的 情况 : 您 拥有 持续 的 数据 流 ， 希望 不 断 从 输入 数据 
以 使 用 目前 学 习 到 的 参数 进行 有 关 新 实例 的 推理 ， 继 续 之 后 














汪 | 











Figaro 中 使 用 在 线 EM 的 代码 。 


程序 清单 13-1 在 线 EM 


val parameters = ModelParameters() 


val d = Dirichlet (2.0,2.0,2.0) ("d",parameters) 


Model 类 以 
参数 集 和 字 
宙 作 为 参 J， 

数 ， 实 现 最 

大 的 灵活 性 def £ = () => { 


val modelUniverse = new Universe 





val s = Select (parameters.get ("d"), 1, 2, 





new Model (parameters.priorParameters, modelUniverse) 


modelUniverse 


} 


























不 同时 在 所 有 数据 实例 上 运算 , 在 每 次 迭代 中 对 所 有 实例 执行 E 步 又 ,而 是 逐个 计算 数 
实例 。 它 在 单个 数据 实例 上 执行 步骤 ,然后 将 该 实例 得 出 的 预期 充足 统计 量 累 加 到 






































] EM 算法 。 但 是 也 可 能 碰 
E 何 时 点 ， 都 可 
的 学 习 。 下 面 是 说 明 如 何在 


使 用 ModelParameters 模 式 ， 
以 便 在 相同 模型 中 使 用 先 
验 和 后 验 参数 














class Model (parameters: ParameterCollection, modelUniverse: Universe) { // 
modelUniverse) // 


性 个 数据 实例 有 自己 的 
宇宙 。 函 数 f 没 有 参数 ， 
责 生 成 这 一 宇宙 
































13.2 ”学 习 模 型 参数 
三 乡 全 第 一 个 参 党 三 成 
val em = EMWithVE.online(f, parameters) ee ne 人 
em. start () 该 宇宙 的 函数 , 第 二 个 参数 是 
ModelParameters 
for (i <- 1 to 100) { 
—t> Val evidence = List (NamedEvidence("s", Observation(1))) // 
对 每 个 数据 em.update (evidence) Ss i 
实例 , 创建 一 } 用 该 证 据 调 用 在 线 
个 命名 证 据 EM 的 更 新 方法 





列表 , 包含 该 | val futureUniversel = Universe.createNew() // 


( 可 能 通过 读 println(VariableElimination.probability (futureModell.s, 1)) 














取 某 个 文件 
站立 ) for (1 <= 101 t+t5 200 
_ + val evidence: List (NamedEvidence("s", Observation(2))) // 
一 > em.update (evidence) 
} 
用 该 证 据 调 
用 在 线 EM val futureUniverse2 = Universe.createNew() // 





的 更 新 方法 val futureModel2 = new Model (parameters.posteriorParameters, futureUniverse2) // | 





println (VariableElimination.probability (futureModel2.s, 1)) 





实例 的 证 气 val futureModell = new Model (parameters.posteriorParameters, futureUniversel) // 上 


推理 之 后 ， 您 可 能 遇 到 更 多 训练 数据 ， 


可 以 交替 进行 任意 频 度 的 训练 和 推理 








完成 学 习 时 , 可 以 用 后 验 参数 创建 一 个 模型 ， 
常 的 方式 进行 有 关 该 模型 的 推理 





























运行 上 述 代码 得 到 如 下 结果 : 


0.9805825242718447 
0.4975369458128079 


在 第 一 次 推理 时 ， 训 练 数据 可 能 是 100 个 1， 所 以 学 习 到 的 生成 1 的 概率 接近 
然后 在 训练 数据 中 增加 了 100 个 2， 因 此 现在 学 到 的 生成 1 概率 接近 于 1/2。 


学 习 模型 结构 
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性 )， 但 是 不 确定 数值 人 参数。 但是， 如果 不 知道 模型 的 结构 该 怎么 办 ? 











以 通 
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本 节 的 重点 是 从 数据 中 学 习 模型 人 参数。 我 假定 您 知道 模型 的 结构 ( 变量 、 函 数 形式 和 依赖 























在 理想 状况 下 ， 您 已 经 从 数据 中 学 到 了 模型 的 结构 和 参数 。 遗 憾 的 是 ， 结 构 学 习 很 难 ， 


大 

















为 可 能 程序 结构 的 空间 很 广阔 。 想 象 一 下 这 种 情况 ， 在 已 知 某 个 程序 输入 输出 范例 的 情况 下 想 








要 知道 程序 是 如 何 将 输入 转换 为 输出 的 。 这 种 问题 称 作 程 序 归 纳 ， 尽 管 经 过 了 多 年 的 研究 ， 在 





























这 方面 仍然 大 没有 可 靠 的 通用 四 > 
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那么 ， 如 果 您 不 知道 模型 的 结构 ， 可 以 做 什么 呢 ? 最 佳 的 方法 是 在 模型 中 明确 地 编码 





















































天 


结构 的 不 确定 性 。 例 如 ， 如 果 不 知道 模型 中 是 否 有 某 个 变量 ,创建 包含 和 不 包含 该 变量 的 两 种 









































模型 版 本 。 如 果 不 知道 某 个 依赖 性 的 方向 ， 同 样 可 以 在 模型 中 编码 这 两 种 可 能 性 。 如 果 不 知道 




















变量 是 正 态 分 布 还 是 均匀 分 布 , 也 可 以 编码 这 两 种 依赖 性 。 在 
表示 哪 一 个 模型 是 正确 的 。 这 个 变量 称 作 结构 变量 。 


Le 





























所 有 情况 下 , 都 要 增加 一 个 变 
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如 果 试 图 在 单独 模型 中 编码 各 种 可 能 性 的 组 合 ， 最 终 会 得 到 大 量 的 模型 。 幸 运 的 是 ， 许 多 


结构 决策 是 独立 的 。 例 如 ， 模 型 是 否 包 含 某 个 变量 和 另 一 个 变量 是 正 态 分 布 还 是 均匀 分 布 可 能 












































是 相互 独立 的 。 其 中 的 诀窍 就 是 在 尽 可 能 紧凑 的 模型 中 编码 尽 可 能 多 的 结构 灵活 性 。 






















































































在 模型 中 表现 了 多 种 备 选 结构 之 后 ， 通 过 概率 推理 进行 决策 。 运 用 推理 ， 




















可 以 确定 结构 变 























量 的 后 验 概率 。 您 也 可 以 使 用 
将 模型 归纳 为 用 于 未 来 数据 实例 的 单一 模型 。 



























































13.3 进一步 应 用 Figaro 


























MPE 推理 确定 所 有 结构 变量 的 最 可 能 值 。 然 后 ， 使 用 最 可 能 值 





祝贺 您 ! 如 果 您 通读 了 本 书 ， 就 已 经 学 到 了 许多 关于 概率 建 模 和 概率 编程 的 知识 ， 















































包括 建 模 和 推理 的 基础 知识 、 各 种 建 模范 式 和 多 种 推理 算法 及 其 用 法 。 本 二 
结束 ， 但 是 如 果 您 想 要 深化 对 概率 编程 和 Figaro 使 用 的 认识 ， 可 以 尝试 如 下 的 任务 。 






























































的 介绍 行将 


田 ”创建 自己 的 原子 元 素 类 库 。 您 可 能 想 要 使 用 当前 Figaro 库 没有 提供 的 一 些 概率 
分 布 。 添 加 自己 的 概率 分 布 并 不 困难 。 您 可 以 研究 com.cra.figaro.library.atomic 






































中 的 元 素 类 定义 〈 不 管 是 连续 元 素 还 是 离散 元 素 )， 以 得 到 相关 的 概念 和 实现 方法 。 















































图 ”创建 自 定义 复合 元 素 。 这 比 创建 原子 元 素 类 更 容易 。 如 果 发 现 自 





掉 上 下 
且 阁 























以 一 些 元 素 为 参数 、 返 回 其 他 参数 的 函数 ， 可 以 考虑 将 其 












































转换 为 复合 元 素 类 。 


这 将 使 它们 更 容易 在 任何 模型 中 人 使用。 同样， 您 可 以 从 com.cra.figaro.library. 




















compound 中 的 定义 找到 思路 。 























国 ”研究 算法 的 调试 版 本 。 大 部 分 Figaro 算法 提供 名 为 debug 的 标志 ， 该 标志 通常 










































































设置 为 false。 如 果 将 其 设置 为 tue， 它 通常 会 提供 详尽 的 输出 ， 这 些 输 
帮助 您 找 出 算法 没有 按照 预期 运行 的 原因 。 当 然 ， 理 解 调试 信息 需要 对 






















































































做 的 运算 有 一 定 的 了 解 ， 但 是 本 书 提供 的 基本 信息 应 该 已 经 足够 。 例 如 ， 变 





以 


算法 所 


有 


= 





消除 法 的 调试 输出 显示 在 解 题 过 程 中 任何 时 点 创建 的 所 有 因子 。 当 您 调试 自己 





























的 模型 时 ， 将 发 现 为 所 有 元 素 命 名 是 很 有 益 的 。 

















看 ”如果 您 使 用 Metropolis-Hastings 算法 ， 可 能 发 现 Metropolis-Hastings.test 方法 很 





























有 用 。 在 这 个 方法 中 ， 您 用 Element.set 方法 设置 任何 需要 的 变量 





































































































置 为 特定 状态 。 然 后 ， 可 以 测试 以 观察 从 该 状态 运行 MH 产 4 


























您 可 以 指定 结果 状态 所 能 满足 的 预测 数量 ， 并 找 出 满足 




















直 ， 将 系统 设 


占 比 。 


如 
(https://github.com/p2t2/figaro ) 上 分 
题 。 感 谢 阅 读本 书 ， 和 希望 您 能 好 好 地 利用 概率 编程 。 
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13 





使 用 宇宙 的 概念 帮助 解决 
， 在 其 中 一 个 宇宙 上 执行 
个 宇宙 上 计算 从 这 些 变 量 

























































































.5 练习 


困难 的 推理 工作 。 例 如 ， 您 可 以 将 模型 分 解 为 两 个 宇 
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模拟 退火 算法 ， 搜 索 一 组 变量 的 最 可 能 值 ， 在 另 一 


















































这 种 概念 ， 在 相关 的 宇宙 ， 
思路 是 通用 的 思路 。Figaro 





























由 生成 的 证 据 概率 。 实 际 上 ， 变 量 消除 法 已 经 采用 了 





























| 不 同 算法 计算 证 


使 | 




















同一 个 算法 能 够 在 多 个 宇宙 
后 续 发 行 版 本 的 推出 ， 使 上 





























上 运行 ， 


























全 


您 对 提升 Figaro 的 实 











小 结 


您 可 以 如 下 方式 进行 动态 概率 模型 的 推理 : 将 其 
过 滤 算 法 进行 随时 监 
使 您 可 以 自己 决定 推理 的 时 长 、 














者 使 ) 


























时 概率 ， 但 是 使 用 多 个 宇宙 的 
团队 正在 升级 宇宙 框架 ， 提 供 统一 的 算法 结构 ， 使 
c 终 地 组 合 不 同 宇宙 中 的 算法 ， 所 以 随 着 
] 这 种 技术 的 潜力 将 有 增 无 减 。 

性 有 想法 ， 请 您 考虑 在 我 们 的 GitHub 网 站 
享 。 我 们 欢迎 您 做 出 贡献 ， 也 始终 乐意 回答 任何 问 









































展开 











到 固定 数量 的 时 间 步 ， 或 


出 














展开 的 方法 使 您 可 以 
节约 内 存 。 


控 。 























向 前 和 向 后 推理 ， 而 过 滤 




















您 可 














并 用 这 一 后 验 分 布 预测 新 情 
Figaro 的 ModelParameters 




















(EM) 算法 执行 ， 该 算法 包装 标准 的 推 





在 线 EM 在 数据 实例 很 多 ， 
时 很 有 用 。 




















练习 


以 使 用 任何 标准 推理 算法 进行 贝 叶 斯 学 习 , 学习 参数 


况 。 








直上 的 后 验 概率 分 布 ， 



































结构 有 助 于 MAP 学 习 ， 
里 算法 。 


内 存 可 能 成 为 问题 或 






































希 











这 种 学 习 通过 期 望 最 大 化 


二 





望 从 持续 的 数据 流 中 学 习 























在 www.manning.com/books/practical-probabilistic-programming 可 以 找到 部 分 练习 的 


答案 。 


1. 工厂 制造 的 1000 到 
氏 ， 遵 循 如 下 分 布 : 如 果 前 
效率 很 高 ,由 


效率 或 高 或 
为 90%% 。 如 果 前 


























汽车 ! 





有 一 





























天 的 燃油 效率 很 低 ， 






































天 燃 


























于 故障 车 到 


he 


有 来 说 当天 燃 立 


出 现 故 障 。 在 任何 给 定 的 日 子 里 ， 汽 车 的 燃油 


则 当天 燃油 效率 低 的 概率 
效率 低 的 概率 为 90%， 























而 对 于 正常 车 到 
效率 的 高 低 。 这 个 仪表 显示 了 
a) 画 出 表示 该 系统 的 动态 贝 叶 











来 说 为 5%。 您 的 车 辆 有 























个 燃油 经 济 性 仪表 





























E 确 值 的 概率 为 0.95， 显 示 不 正确 





























， 可 以 显示 车 辆 当天 燃 
值 的 概率 为 0.05。 












































斯 网 络 。 





b) 编写 一 个 Figaro 程序 表示 这 个 系统 。 
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c) 从 这 个 程序 创建 两 个 长 度 为 100 的 观察 序列 ， 一 个 用 于 正常 车 加 














故障 车 辆 。 




















d) 使 用 粒子 过 滤 监 控 该 系统 状态 。 在 两 个 观察 











样本 。 您 可 能 发 现在 大 部 分 时 候 无 法 检测 出 故障 车 





























e) 现在 用 10000 个 样本 重复 0d)。 通 常 您 将 得 
































(一 定 要 多 次 运行 试验 
2. 现在 ， 对 前 一 个 练习 的 模型 稍 加 更 改 ， 使 粒 














粒子 过 滤 不 总 能 产生 相同 的 答案 ) 
子 过 滤 运 行 得 更 顺畅 。 故 障 车 辆 不 














j。 您 认为 这 是 什么 原因 ”? 
到 不 同 的 结果 ， 您 能 解释 











个 用 于 

















字 列 上 运行 粒子 过 滤 ， 使 用 


100 个 











原因 吗 ? 











总 是 保持 故障 状态 ， 每 个 时 间 步 在 一 定 概率 下 ， 它 能 够 自行 修 


























o 同 样 


EF 常 刀 





了 








FE 辆 可 能 








发 生 故 障 。 具 体 地 说 ， 从 一 个 时 间 步 到 下 一 个 时 间 步 车 辆 保持 相同 故障 状态 的 概率 为 





0.99， 状 态 出 现 变化 的 概率 为 0.01。 




















Se 


10000 个 样本 重复 试验 。 评 估 这 一 平衡 措施 。 








] 这 个 模型 在 100 个 样本 上 运行 粒子 过 滤 。 新 结果 和 原来 的 结果 有 何不 同 ? 用 


3. 这 个 练习 指出 EM 算法 的 一 个 陷阱 。 考 虑 图 13-11 所 示 的 简单 贝 叶 斯 网 络 ， 您 将 





学 习 该 网 络 的 参数 。 




















Sd 


a) 创建 Figaro 程序 ， 用 模型 参数 学 习 模 式 表 示 该 网 络 。 用 Beta(1,1) 作 为 所 有 参数 








的 先 验 分 布 。 
b) 创建 有 10 个 实例 左右 的 训练 和 
X 和 乙 取 值 相 同 。 有 时 候 它们 都 为 真 ， 有 时 都 为 假 。 














tr 
































Z 





图 13-11 练习 3 的 贝 叶 斯 网 














c) 使 用 EM 算法 学 习 模 型 参数 。 试 验 EM 的 不 同 变 种 。 


络 

















， 仅 观察 变量 X 和 Z。 确 保 在 每 个 训练 实例 ! 





d) 现在 用 后 验 参数 创建 一 个 测试 案例 。 观 察 X 为 真 ， 并 计算 Z 为 真 的 概率 。 您 可 
能 发 现 ， 尽 管 X 为 真 ， 训 练 集中 的 X 和 了 乙 总 是 相等 ， 但 是 这 个 概率 并 不 接近 1。 试 解释 








其 中 的 原因 。 


























e) 下 面 我 们 来 解决 这 个 问题 。 将 已 知 X 为 真 时 YY 的 先 验 分 布 改 为 Beta(2,1)，YY 为 














真 时 X 的 先 验 分 布 为 Beta(1,2)。 同 样 ， 使 用 EM 学 习 参 数 并 运行 测试 。 这 一 次 ，Z 为 真 











的 概率 应 该 接近 于 1。 您 认为 为 什么 会 出 现 这 样 的 结 























果 ? 当 您 自己 使 用 EM 时 ， 可 以 从 
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得 到 什么 启示 ? 
4. 现在 重复 问题 3， 用 贝 叶 斯 学 习 代 蔡 EM。 
a) 在 这 个 问题 上 尝试 不 同 的 推理 算法 。 哪 种 算法 效果 最 好 ? 您 认为 原因 是 什么 ? 
b) 对 比 贝 叶 斯 学 习 和 EM 的 结果 。 对 所 有 变量 使 用 Beta(1,1) 先 验 分 布 或 者 对 YY 使 
用 Beta(2,1) 和 Beta(1.2)， 贝 叶 斯 学 习 有 没有 显著 的 差异 ?” 使 用 Beta(2,1) 和 Beta(1,2) 先 
验 分 布 是 否 在 EM 中 造成 显著 的 不 同 ? 如 果 有 ， 您 认为 是 什么 原因 ? 
5. 您 已 经 看 到 参数 学 习 的 工作 原理 ， 现 在 可 以 回顾 第 3 章 中 的 垃圾 邮件 过 滤 示 


























































































































































































































例 了 





a) 重 现 该 示例 ， 使 用 模型 参数 学 习 模式 。 
b) 将 学 习 方法 从 第 3 章 中 的 基本 EM 方法 《同时 在 所 有 电子 邮件 上 训练 ) 改 为 离 


线 学 习 方法 。 














附录 A ”获取 和 安装 Scala 和 Figaro 


A.1 





本 附录 


本 书 代码 








功能 


人 


Sbt 负 责 





使 用 sbt 


史上 
。 我 们 尽 可 外 
Figaro 3.3 使 用 Scala 2.11.x。 遗 ' 
将 Figaro 移植 到 新 版 本 Scala 需要 
这 些 依赖 改 

















的 Figaro 











官方 版 本 是 3.3。 了 本 
E 使 未 来 的 版 本 向 后 兼容 ， 所 以 您 应 该 也 可 以 使 / 


E， 确 保 使 用 了 











运行 本 书 


代码 的 最 简 征 





为 一 个 sbt 项 目 
项 目 中 运行 sbt 


其 他 软件 。 





























的 。 
时 ， 它 将 自动 拉 进 相关 的 Scala 和 Figaro 版 本 ， 所 以 您 不 需要 





方法 是 使 用 sbt 





含 安装 Figaro 并 在 您 的 计算 机 上 运行 的 指南 。 
用 Scala 构建 工具 (sbt)。 用 sbt 运行 Figaro 的 说 
因 无 法 或 者 不 想 使 用 sbt， 可 以 参考 A.2 小 节 中 介绍 的 人 工 
期 版 本 的 Figaro 不 支持 本 











日 











明 在 A.1 




















目前 为 











止 最 简单 的 方法 


是 使 














措 





小 节 ! 

















安装 方法 。 








述 。 如 果 因 为 某 种 原 








六 描 


述 的 所 有 






































j 更 新 版 本 上 








感 的 是 ， Scala 本 























。 如 果 下 载 本 


于 发 人 员 不 保持 





的 代码 ， 








版 本 间 的 问 








它们 是 预先 打 


鸭 Figaro 。 
后 兼容 性 ， 
花费 时 间 ， 所 以 Figaro 不 总 能 在 最 新 的 Scala 版 本 上 


E 确 的 Scala 版 本 。 





包 


您 所 需要 做 的 就 是 从 www.scala-sbt.org 下 载 和 安装 sbt。 然 后 ， 在 本 

















sbt 还 确 








保 项 














目 配置 了 了 





使 用 本 书 所 需要 知道 的 sbt 命令 如 下 : 





Sbt console 





下 


sbt "runMain object arguments" | 


S ,需要 导航 到 


到 PracticalProbProg/examples 


运行 交互 式 Scala 命 
以 给 定 的 命令 行 参 数 运行 指定 


中 的 主 方法 。 对 象 必须 加 上 包 名 ， 
例如 chap01.HelloWorldFigaro 





FE 确 的 类 路 径 (classpath)， 和 避免 一 些 麻烦 。 


对 象 


目录 , 这 是 项 目的 顶级 








安装 任何 


目录 。 





A.2 


A.2 在 没有 sbt 的 情况 下 安装 和 运行 Fi 


注意 : 如 果 已 经 在 sbt 面板 中 ， 就 不 


需要 再 




















次 输入 sbt， 可 以 输入 runMain object arguments。 
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sbt 有 许多 功能 ， 也 是 构建 和 运行 代码 的 好 方法 。 您 可 以 在 我 们 的 项 目 


Build.scala 作为 起 点 。sbt 也 可 以 和 Eclipse 一 起 使 用 。 


在 没有 sbt 的 情况 下 安装 和 运行 Figaro 





[el 


虽然 sbt 是 一 种 实用 的 工 





























\， 但 您 可 能 想 要 以 不 同 的 方式 管理 自己 的 工作 空间 。 本 





























安装 指南 的 余下 部 分 描述 在 没有 sbt 的 情况 下 安装 和 运行 Figaro 的 方法 。 
要 Scala。Scala 编译 程序 可 以 从 命令 行 或 者 集成 开发 环境 (IDE) 











让 咎 
JLT 


运行 。 支 持 Scala 开发 


















































1. 由 Scala 入 手 ， 





版 本 。 根 据 http://scala-lang.org/download/install.html 的 Scala 安装 指南 , 确 











编译 和 执行 文档 中 提供 的 Hello World 程序 。 














的 IDE 包括 Eclipse 和 IntelliJ IDEA。NetBeans 也 有 
件 ， 但 是 似乎 不 能 支持 Scala 的 最 新 版 本 。 在 下 面 的 指南 ' 
和 Figaro, 以 及 从 命令 行 运行 使 用 Figaro 的 Scala 程序 。 我 不 提供 特定 IDE 的 使 | 
如 何 包含 Figaro 库 的 细节 请 参见 IDE 和 Scala 插件 文档 。 

从 http://scala-lang.org/download/ 下 载 合适 于 Figaro 版 本 的 Scala 




















个 Scala 插 
， 我 将 说 明 如 何 获 取 Scala 
说 明 。 


















































保 您 可 以 运行 、 























2 








下 载 链接 都 是 一 个 


下 一 步 是 获取 Figaro。Figaro 二 进 制 分 发 程序 托管 在 Charles River Analytics 公司 的 
网 站 。 访 问 www.cra.com/figaro， 确 保 使 用 与 Scala 版 本 相 
包含 Figaro JAR (JAR 是 编译 字 节 代码 的 Java/Scala 格式 )、 示 例 、 文 档 











匹配 的 Figaro 版 本 。 每 个 可 用 的 








三 








Scaladoc 和 源 代码 文件 的 压缩 包 。 在 分 发 版 本 : 

















，Figaro JAR 文件 名 以 “fat” 结 束 ， 表 示 这 























是 包含 所 有 运行 Figaro 必要 文件 的 JAR。 单 


3.[ 可 选 ] 将 Figaro JAR 的 完整 

















合适 的 链接 ， 然 后 解压 下 载 的 压缩 文件 。 








限定 路 径 名 添加 到 classpath。 这 可 以 通过 将 Figaro JAR 














添加 到 操作 系统 中 的 CLASSPATH 环境 变量 来 完成 。 编 辑 CLASSPATH 的 过 程 在 不 同 操 











作 系 统 中 
paths.html 
a) 如 
工作 目录 ， 所 以 将 CLASSPATH 设置 为 
b) 现在 ， 在 CLASSPATH ， 





























6 ?9 
四 









































CLASSPATH 更 改 为 C:\Users\apfeffer\figaro_2.11-3.3.0.0-fat， 











2.11, 








对 应 的 Figaro 版 本 代替 3.3.0.0。 





添加 Figaro JAR。 例 如 ， 在 Windows 7 上 ， 如 果 
figaro_2.11-3.3.0.0-fat.jar 在 C:\Users\apfeffer 文件 夹 中 上 且 CLASSPATH 目 











不 相同 。 您 可 以 在 http://docs.oracle.com/javase/tutorial/essential/environment/ 
查看 关于 PATH 和 CLASSPATH 环境 变量 的 细节 。 
果 CLASSPATH 不 存在 ， 创 建 一 个 。 我 总 是 喜欢 在 CLASSPATH ' 








sb 司 


包含 当前 



































前 等 于 “.”, 将 
对 应 的 Scala 版 本 号 代 蔡 
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a) 如 果 从 包含 Test.scala 的 目 





. 现在 ,您 可 以 像 任何 Scala 程序 一 样 编译 和 运行 Figaro 程序 。 将 如 下 的 测试 程序 
放 在 名 为 Test.scala 的 文件 中 。 首 先 ， 假 定 您 按照 第 3 步 并 更 新 CLASSPATH。 
录 中 运行 scala Testscala，Scala 乡 



































有 译 器 将 首先 编译 该 
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A.3 


附录 A 获取 和 安装 Scala 和 Figaro 





程序 ， 然 后 执行 。 该 程序 应 该 输出 1.0。 
b) 如 果 运 行 scalac Test.scala (注意 scalac 最 后 的 c)，Scala 编译 器 运行 并 生成 .class 
文件 。 然 后 ， 在 同一 个 目录 运行 scala Test 执行 程序 。 

c) 如 果 没 有 按照 第 3 步 执 行 , 可 以 使 用 -cp 选项 从 命令 行 设置 CLASSPATH。 例 如 ， 
要 编译 和 执行 Test.scala， 假 定 figaro_2.11-3.3.0.0-fat.jar 在 C:\Users\apfeffer 文件 夹 中 ， 
可 以 运行 scala -cp C:\Users\apfeffer\ figaro_2.11-3.3.0.0-fat Test.scala。 

下 面 是 测试 程序 : 


import com.cra.figaro.language._ 
import com.cra.figaro.algorithm.sampling._ 






























































object Test { 
def main(args: Array[String]) { 
Val test = Constant ("Test") 
val algorithm = Importance (1000, test) 
algorithm.start () 
printlin(algorithm.probability (test, "Test")) 





上 述 程序 应 该 输出 1.0。 





从 源 代码 编译 


Figaro 在 GitHub 上 作为 开源 项 目 维 护 , 这 个 GitHub 项目 是 Probabilistic Programming 
Tools and Techniques (概率 编程 工具 与 技术 ，P2T2), 人 -https://github.com/p2t2。P2T2 
目前 包含 Figaro 源 代码 ,但 是 我 们 计划 更 新 它 ， 包 含 更 多 的 工具 。 如 果 您 想 要 自己 查看 
源 代 码 和 构建 Figaro， 请 访问 我 们 的 GitHub 网 站 。 

Figaro 使 用 sbt 管理 构建 。 要 从 GitHub 源 代 码 构 建 Figaro， 建 立 您 的 GitHub 账户 
存储 库 的 一 个 分 支 ,然后 使 用 Git 的 克隆 功能 ,从 GitHub 账户 将 源 代码 下 载 到 您 的 机 器 : 


git clone https://github.com/ [your-github-username] /figaro.git 


该 项 目 有 多 个 分 支 ; 访问 “master” 分 支 获得 最 新 的 稳定 版 本 ， 也 可 以 访问 最 新 的 
“DEV ”分支 获得 更 尖端 的 功能 (这 是 正在 推进 中 的 工作 ， 因 此 较 不 稳定 )。 下 载 和 安装 
sbt， 启 动 程序 进入 命令 提示 行 ， 按 照 顺序 输入 如 下 命令 : 


Glean 
compile 
package 
assembly 














































































































































































































SS 


exit 
这 就 为 相关 的 Scala 发 行 版 本 创建 了 一 个 Figaro 版 本 ， 您 可 以 在 “target”( 目 标 ) 
目录 中 找到 这 些 工件 。 























附录 B 


概率 编程 系统 秽 况 














































































































































































































































































































正在 开发 中 的 概率 编程 系统 〈PPS ) 越 来 越 多 。 在 本 附录 中 ， 我 将 简短 地 介绍 广泛 
使 用 的 系统 及 其 关键 功能 。 在 可 能 的 情况 下 ， 我 还 提供 下 载 这 些 系统 的 URL。 在 此 ， 我 
不 想 涵盖 所 有 的 系统 ;为 此 我 要 向 未 被 提 及 的 系统 的 开发 者 们 道 菊 。 我 还 要 预先 为 系统 
说 明 中 的 任何 错误 或 者 重大 遗漏 道歉。 
PPS 的 特性 可 以 从 几 个 维度 描述 : 
四 ”语言 的 表达 能 力 如 何 ? 例如 ， 它 是 否 支 持 用 户 定义 函数 、 无 向 模型 、 离 散 和 连 
续 变量 、 开 放 宇 宙 模 型 和 任意 数据 类 型 的 变量 ? 
图 ”系统 采用 何 种 部 署 策略 ? 它 是 否 提供 独立 语言 、 现 有 语言 中 的 库 或 者 包含 概率 
扩展 的 现 有 语言 新 实现 ? 如 果 是 独立 语言 ， 是 否 提供 来 自 现 有 语言 的 接口 ? 
回 ” 它 使 用 哪 一 类 编程 风格 ， 如 函数 式 、 逻 辑 式 、 命 令 式 或 者 面向 对 象 ? 
加 ”系统 提供 哪 种 类 型 的 推理 算法 ， 如 分 解 和 抽样 算法 ? 是 否 支 持 动态 推理 ? 
国 ”支持 哪些 类 型 的 查询 ? 




















下 面 是 PPS 的 一 些 例子 。 
BUGS (WWW.MRC-BSU.CAM.AC.UK/SOFTWARE/BUGS) 


BUGS 是 Bayesian Inference Using Gibbs Sampling (使 用 Gibbs 抽样 的 贝 叶 斯 推理 
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的 缩写 ， 顾名思义 ， 它 是 围绕 称 作 Gibbs 抽样 的 马尔 科 夫 链 蒙 特 卡 洛 (MCMC) 算法 构 
建 的 。 BUGS 是 最 早 的 PPS 之 一 , 已 经 在 社会 科学 等 学 科 中 流行 起 来 。 在 表现 能 力 方面 ， 
BUGS 不 允许 用 户 定义 函数 , 主要 关注 连续 变量 , 但 是 为 变量 提供 了 广泛 的 分 布 。BUGS 
是 以 独立 语言 的 形式 实现 的 。 

STAN (HTTP:/MC-STAN.ORG/) 

Stan 是 一 种 流行 的 概率 编程 系统 ， 尤 其 是 在 统计 学 的 圈子 内 ， 它 能 够 执行 许多 类 统 






































计 推 理 。Stan 的 主要 推理 算法 是 MCMC 的 高 效 形 式 。 和 BUGS 一 样 ，Stan 专注 于 连续 


变量 , 提供 广泛 的 分 布 类 型 。 Stan 是 一 利 











独立 语言 , 但 是 提供 了 








Pa 


流行 语言 (如 及 、Python、 
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附录 B ”概率 编程 系统 简况 


MATLABRB) 的 接 门 。 
FACTORIE (HTTP:/FACTORIE.CS.UMASS.EDU/) 
FACTORIE 是 一 种 在 自然 语言 处 理应 用 上 取得 许多 成 功 的 概率 编程 系统 。 和 大 部 分 





其 他 PPS 不 同 ， 





MCMC 等 算法 。 和 Figaro 类 似 ，FACTORIE 是 一 个 Scala 库 。 












































FACTORIE 使 用 命令 式 风格 ， 明 确 地 创建 因子 图 , 在 这 些 图 上 可 以 执行 








PROBLOG (HTTPS:/DTAI.CS.KULEUVEN.BE/PROBLOG)/) 
和 本 附录 中 介绍 的 其 他 PPS 不 同 ，ProbLog 基于 逻辑 编程 。 如 果 您 喜欢 使 用 Prolog 





















































等 逻辑 编程 语言 ， ProbLog 可 能 是 个 很 好 的 选择 。ProbLog 可 以 视 为 Prolog 的 概率 扩展 。 


























结 

















概率 逻辑 编程 的 基本 思路 是 有 一 组 基本 事实 和 一 组 逻辑 规则 ， 其 他 派生 的 事实 均 遵循 这 




















一 组 规则 。 任 何 派 生 事实 的 概率 是 一 组 基本 事实 的 概率 ， 因 此 派生 事实 由 这 些 基本 事实 





产生 。ProbLog 


BLOG (HTTPS://SITES.GOOGLE.COM/SITE/BLOGINFERENCE)/) 





































































































仅 限 于 离散 变量 。 对 于 推理 ，ProbLog 使 用 证 明 推 导 等 逻辑 编程 技术 。 








BLOG (Bayesian Logic， 贝 叶 斯 逻辑 ) 是 逻辑 和 函数 式 PPS 的 一 种 混合 物 。BLOG 
中 的 陈述 类 似 于 逻辑 陈述 , 但 是 BLOG 模型 中 有 一 个 生成 流程 , 表示 可 能 世界 的 生成 方 
式 ， 这 与 Figaro 等 PPS 类 似 。BLOG 采用 开放 宇宙 建 模 ， 在 这 种 方法 中 ， 您 不 知道 对 象 


的 数量 和 身份 ， 






















































































如 果 您 有 这 类 模型 ，BLOG 就 是 好 的 选择 。BLOG 使 用 MCMC 进行 推 







































































理 ， 是 一 种 独立 的 语言 ， 但 是 您 可 以 用 Java 编写 自 定 义 提 议 方案 。 


CHURCH 


Church 是 万 











(HTTPS:/PROBMODS.ORG/PLAY-SPACE.HTML) 
起 于 类 Lisp 语言 Scheme 的 函数 式 PPS。 在 表现 能 力 上 和 Figaro 类 似 ， 它 











也 支持 复杂 控制 
实现 。 上 述 的 URL 指向 WebChurch, 这 个 Web app 包含 一 个 很 好 的 交互 式 概率 编程 教程 。 





























流 和 递归 ， 以 及 丰富 数据 结构 ， 但 是 它 不 是 面向 对 象 的 。Church 有 多 种 




















ANGLICAN (WWW.ROBOTS.OX.AC.UK/~ FWOOD/ANGLICAN)/) 


Anglican 是 相对 新 颖 的 语言 ， 在 表现 能 力 上 类 似 于 Church， 其 主要 特征 是 高 效 和 准 


确 的 抽样 算法 。 


























VENTURE (HTTP:/PROBCOMP.CSAIL.MIT.EDU/VENTURE)/) 


Venture 是 来 自 一 些 Church 开发 者 的 新 语言 。Venture 的 主要 创新 是 推理 编程 ,为 用 
户 提供 了 表现 力 强 、 细 粒度 的 交互 推理 控制 ， 主 要 使 用 抽样 算法 。 

































































DIMPLE (HTTP://DIMPLE.PROBPROG.ORG)/) 


Dimple 是 





Gamalon 生成 的 PPS。 尽 管 它 能 够 表现 离散 和 连续 变量 以 及 有 向 和 无 向 



































模型 , 但 是 仅 限于 有 限 的 固定 结构 模型 。 对 于 这 些 模型 ，Dimple 提供 一 些 高 效 的 分 解 推 


理 算法 。 
































欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 

异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 
出 版 社 旗下 IT 专业 图 书 旗 舰 社区 ， 于 2015 年 8 
月 上 线 运 营 。 

异步 社区 依托 于 人 民 邮 电 出 版 社 20 余年 的 
IT 专业 优质 出 版 资源 和 编辑 策划 团队 ， 打 造 传统 
出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印 刷 与 POD 按 需 印 刷 结合 的 出 版 平台 ， 








器 千 步 什 区 
人 民 邮 电 出 版 社 


| | www.epubit.com.cn 





Ex 


社区 UI 全 新 改版 ， 罗 新 面貌 迎接 2017! 为 答谢 社区 用 户 SS 


即日 起 到 | 
1 月 26 号 | = | 























提供 最 新 技术 资讯 ， 为 作者 和 读者 打造 交流 互动 
的 平台 。 


社区 里 都 有 什么 ? 


购买 图 书 














wa 从 
| 发 二， 数据 科学 区 编导 语言 略 移动 开发 Ee 游戏 开发 
机 路 学 习 2 深度 学 习 更 多 > 
免费 电子 书 vB 
一 一 一 一 Free eBook 
= 
ns 四 3 
2 婴 叶 方法 
Python 习 一 预 。 贝 叶 斯 方法 : 称 宰 编 性 。 机 器 学 习 项 目 开发 实战 贝 叶 斯 导 维 ; 统计 建 樟 
入 析 村 法 与 中叶 其 推断 的 Python 学 习 法 近期 活动 
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a 
(oN 了 
由 要 
Ee S 




















我 们 出 版 的 图 书 涵盖 主流 IT 技术 ， 在 编程 语言 、Web 技术 、 数 据 科 学 等 领域 有 众多 经 典 畅 销 图 书 。 
社区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 





布 新 书 书 讯 。 











下 载 资源 


社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 
另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 可 以 免费 下 载 。 











与 作 译 者 互动 








很 多 图 书 的 作 译 者 已 经 入 驻 社区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 
作 译 者 和 编辑 畅 聊 好 书 背后 有 趣 的 故事 ;还 可 以 参与 社区 的 作者 访谈 栏目 ， 向 您 关注 的 作者 提出 采访 题目 。 


灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 邮 电 出 版 社 书 库 发 货 ， 电 子 书 提供 


多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 


入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


用 户 可 以 第 一 时 间 买 到 心仪 的 新 书 。 
用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积分 =1 元 ， 购 买 图 书 时 ， 在 。 


IE ED 


特别 优惠 


购买 本 书 的 读者 专 享 异步 社区 购书 优惠 券 。 
使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 时 输入 ”57AWG 


， 然 后 点 击 “ 使 


用 优惠 码 ”， 即 可 享受 电子 书 8 折 优惠 〈 本 优惠 券 只 可 使 用 一 次 )。 








纸 电 图 书 组 合 购买 























社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 
方式 ， 价 格 优惠 ， 一 次 购买 ， 多 种 阅读 选择 。 





社区 里 还 可 以 做 什么 ? 
提交 勘误 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘 
误 被 确认 后 可 以 获得 100 积分 。 热 心 勘误 的 读 
者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 
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业 





说 











宝 桔 河 WiresharkGFEGE 林 Ff 

















区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 试 身手 ， 在 社区 里 分 享 您 的 技术 心得 


和 读书 体会 ， 更 可 以 体验 自 出 版 的 乐趣 ， 轻 松 实现 出 版 的 梦想 。 


如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社 
会 议 活动 早 知道 





























区 提供 的 作者 专 享 特色 服务 。 





您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 





加 入 异步 





扫描 任意 二 维 码 都 能 找到 我 们 : 








异步 社区 ”人 微 信 服务 号 。 
社区 网 址 : www.epubit.com.cn 


官方 微 信 : 异步 社区 











微 信 订 阅 号 。 











官方 微 博 。 ”QQ 群 : 368449889 


官 万 做 信 : @ 人 邮 和 异步 社区 ，@ 人 民 邮 电 出 版 社 - 信息 技术 分 社 


投稿 & 咨询 : contact@epubit.com.cn 


概率 编程 实战 


你 所 积累 的 有 关 客 户 、 产 品 和 网 站 用 户 的 数据 不 仅 能 帮助 你 解读 
过 去 的 情况 ， 还 可 以 帮助 你 预测 未 来 ! 概率 编程 使 用 代码 从 数据 中 进 
行 概 率 推理 。 通 过 应 用 特定 的 算法 ， 你 的 程序 可 以 确定 不 同 结论 的 概 
率 。 这 意味 着 你 可 以 预测 未 来 事件 ， 如 销售 趋势 、 计 算 机 系统 故障 、 
试验 结果 和 其 他 许多 重要 的 关注 点 。 

本 书 向 程序 员 们 介绍 概率 编程 。 在 书 中 你 能 立刻 接触 到 实际 的 示 
例 , 如 构建 垃圾 邮件 过 滤器 、 诊 断 计 算 机 系统 数据 问题 、 恢 复数 码 图 像 。 
你 会 发 现 概率 推理 中 的 算法 能 够 帮助 你 做 出 有 关 社 会 化 媒体 使 用 情况 
等 问题 的 长 期 预测 。 在 这 本 书 中 ， 你 还 将 学 习 用 于 文本 分 析 的 函数 式 
编程 ， 预 测 微 博 传播 等 社会 化 现象 的 面向 对 象 模型 ， 以 及 估算 现实 生 
活 中 社会 化 媒体 使 用 量 的 开放 宇宙 模型 。 本 书 还 包含 了 介绍 概率 模型 
如 何 帮助 决策 和 动态 系统 建 模 的 章节 。 


本 书 主要 内 容 
概率 建 模 入 门 

用 Figaro 编写 概率 程序 
构建 贝 叶 斯 网 络 

预测 产品 生命 周期 
决策 算法 


本 书 假定 读者 之 前 没有 接触 过 概率 编程 。 懂 得 Scala 的 知识 对 阅 
读本 书 是 有 帮助 的 。 


Avi Pfeffer 概率 编程 的 先驱 ，Figaro 概率 编程 语言 的 首席 设计 者 和 
开发 者 。 他 一直 致力 于 Figaro 在 多 个 问题 上 的 应 用 , 包括 恶意 软件 分 析 、 
汽车 健康 监控 、 气 象 模型 建立 和 工程 系统 评估 。 
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“概率 编程 从 研究 实验 室 走 向 现实 世 
界 的 重要 一 步 。” 


一 一 摘自 本 书 序 言 ，Stuart Russell， 
加 州 大 学 伯克利 分 校 


“清晰 的 示例 和 对 困难 、 复 杂 主 题 的 
详尽 解释 。 


一 一 Mark Elston, Advantest America 


“连贯 、 实 用 、 易 于 理解 。 这 是 一 
本 不 可 思议 的 Scala 概率 编程 实战 书 
籍 。 及 





Kostas Passadis, IPTO 


“概率 编程 真是 复杂 | 但 是 Avi 使 这 
一 主题 变 得 简单 直观 ， 易 于 学 习 。” 
Earl Bingham, Eyelock 
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